Irion maakt voor de ontwikkeling van haar produkten gebruik van diverse technologieën, waarvan taaltechnologie de belangrijkste is.
Naast taaltechnologie wordt gebruik gemaakt van leeralgoritmes (machine learning), informatie-extractie en semantic web.
Taaltechnologie
Computers kunnen een flink stuk slimmer worden gemaakt als ze niet alleen goed kunnen rekenen, maar ook verstand hebben van taal. En dan niet een computertaal, maar de natuurlijke taal waarin mensen schrijven of met elkaar spreken. Het op deze manier slimmer maken van computers heet taaltechnologie.
Taaltechnologie maakt gebruik van woordenboeken, grammatica’s, betekenis, en van talloze andere vormen van “taalkennis”, die mensen hanteren wanneer ze elkaar schrijven of met elkaar spreken. Het grote probleem daarbij is, dat natuurlijke taal veel ingewikkelder in elkaar zit dan computertalen, en vol zit met dubbelzinnigheden, uitzonderingen en betekenisnuances.
Hoe lastig het is om een computer daadwerkelijk met taal te leren omgaan, is te zien aan de gebrekkigheid van vertaalprogramma’s. De ambities van Irion liggen dan ook niet bij het automatisch vertalen, maar bij het inzetten van taaltechnologie om bedrijfsprocessen in kennis- en informatiemanagement te verbeteren.
Text Mining / Informatie-extractie
Text mining / Informatie-extractie is een van de belangrijkste technologieën die Irion gebruikt voor de realisatie van oplossingen voor klanten. Door middel van taaltechnologie, patroonherkenning en leeralgoritmen wordt specifieke informatie automatisch afgeleid uit grote aantallen teksten, en opgeslagen in databases, of andere data repositories. Bij voorkeur doen we dat op een semantische manier, zo dat de protocollen en standaarden van Linked Open Data kunnen worden toegepast. Belangrijke voorbeelden van Irion’s Text Mining / Informatie-extractie-projecten zijn: BizTriggers, Hotfrog and Achmea.
Machine Learning
Irion maakt gebruik van verschillende soorten leeragoritmes, zoals supervised learning, unsupervised learning, en transductie. Deze technieken worden gewoonlijk gecombineerd met taaltechnologie, en met formal concept analysis, informatie-extractie and simplex regelgebaseerde deductie om oplossingen voor klanten te realiseren. In het bijzonder wordt supervised learning gebruikt voor ons classificatiesysteem. Hier wordt het gecombineerd met bijzondere vorm van taaltechnologie, namelijk statistische operaties op geannoteerde en genormaliseerde text corpora, domeinkennis uit thesauri en andere controlled vocabularies, en semantische netwerken.
Irion ontwikkelde zo haar eigen mix van gecombineerde technologieën om de prestaties van het classificatiesysteem te optimaliseren. Deze combinatie zorgt ervoor, dat ons classificatiesysteem in situaties buiten de universitaire laboratoria, dus in het echte leven, niet alleen beter presteert dan de meeste andere classificatiesystemen in de wereld, maar per oplossing ook aanzienlijk minder ontwikkeltijd vraagt.
Een spectaculair recent voorbeeld hiervan is de ontwikkeling van een IPTC-classificatie voor zowel het Italiaans als het Spaans, die we samen met onze partner LexisNexis in slechts drie maanden tijd ontwikkelden.