31-01-2023

2 miljoen voor verbeteren AI-onderzoek op big data geesteswetenschappen

Het geesteswetenschappelijk onderzoek op big data is niet berekend op de enorme rijkdom van onze gedigitaliseerde bronnen. Dr. Marieke van Erp, hoofd van het DHLab van het KNAW Humanities Cluster ontvangt een prestigieus Europees fonds om dat probleem op te lossen.

De afgelopen jaren zijn er miljoenen pagina’s gescand. Die enorme rijkdom aan gedigitaliseerde bronnen biedt het geesteswetenschappelijk onderzoek heel veel mogelijkheden. Helaas zijn de huidige technologieën voor analyse van deze big data hier niet op berekend. Ze zijn bijvoorbeeld niet in staat om complexe concepten als identiteit en veranderingen door de tijd weer te geven.

Inzet van unieke combinatie van taal- en semantische webtechnologie

Dr. Marieke van Erp van het KNAW Humanities Cluster in Amsterdam ontvangt een ERC Consolidator Grant van 2 miljoen euro voor haar project TRIFECTA. Hiermee kan Van Erp AI-technologieën verbeteren om geesteswetenschappelijk onderzoek op basis van big data mogelijk te maken. TRIFECTA combineert op een unieke manier taal- en semantische webtechnologie om gecontextualiseerde informatie te halen uit gedigitaliseerde bronnen. Daarnaast creëert het infrastructuur voor databases die complexe entiteiten en concepten beschrijven. Met deze nieuwe technologie maakt Van Erp geavanceerd en vernieuwend geesteswetenschappelijk onderzoek op big data mogelijk.

Wat is de VOC nou eigenlijk?

In de huidige situatie zijn databases ingericht op informatie die eenduidig is en onveranderlijk in tijd en plaats. Geesteswetenschappelijke data is echter gebaseerd op termen en definities die door de tijd veranderen, per plaats verschillen en afhangen van wie er over schrijft. Om dit te illustreren geven we het voorbeeld van de VOC en de term koffie.

De VOC is een complexe entiteit die zich door de eeuwen heen heeft ontwikkeld van een handelsmaatschappij tot een organisatie met een eigen munt en leger. In de Nederlandse taal is het een begrip dat ondernemerschap illustreert. Denk aan de VOC-mentaliteit. Ook de term koffie lijkt op het eerste gezicht een eenvoudige definitie, maar het kan verwijzen naar de plant, de koffiezaden, de drank ‘koffie’ en de activiteit van het drinken van de drank. Koffie heeft ook een lange geschiedenis die diep verbonden is met kolonialisme en status, waar historici door de eeuwen heen verschillend over dachten.

Schematische weergave van verschillende interpretaties, context en betekenissen van de term VOC.

AI voor geesteswetenschappelijke data

Geesteswetenschappelijke entiteiten en concepten maken deel uit van een ingewikkeld netwerk van nationale identiteiten; zijn in de loop der tijd ingrijpend veranderd; en sluiten aan bij veel verschillende verhalen met verschillende meningen erover. Juist het onderzoeken van complexe entiteiten en concepten is de kern van geesteswetenschappelijk onderzoek. Marieke van Erp wil met TRIFECTA technologieën verbeteren om om te gaan met veranderingen in tijd en plaats en verbanden met verschillende verhalen en om zo het onderzoek op big data te bevorderen.