Digital forensics for historical documents

Looptijd: Juni 2018 - december 2022
Subsidieverstrekker: Onderzoeksfonds KNAW-Instituten
Subsidieomvang: 500.000 euro
Opvallend: Steeds meer digitale images van handgeschreven bronnen zijn online beschikbaar. De algemeen omarmde standaard voor het aanbieden en verwerken ervan, IIIF, biedt de mogelijkheid om dit materiaal te beschouwen als Big Data, en met behulp van AI nieuwe onderzoeksmethoden te ontwikkelen.
Valorisatie: In dit experimentele project werden twee datasets met historisch handgeschreven materiaal geschikt gemaakt voor verschillende onderzoeksvragen. De opbrengst is niet zozeer een nieuwe software tool als wel inzicht in de processen en data cleaning die nodig is bij de bouw van een deep-learning systeem voor dit materiaal.

Het Huygens Instituut verwierf in samenwerking met het IISG een Onderzoeksfonds KNAW-Instituten subsidie voor het project ‘Digital forensics for historical documents. Cracking cold cases with new technology’. In dit project worden technieken van digitale beeldanalyse gebruikt om op een nieuwe manier historische schriftsamples te analyseren. Het project had een looptijd van juni 2018 tot december 2022. Het proefschrift dat eruit voortvloeit is nog in bewerking.

Paleografische analyse met forensische methode

Het Digital Forensics-project wil een brug slaan tussen twee verschillende manieren van handschriftanalyse: de forensische en de paleografische methode. In forensisch onderzoek is de handschriftanalyse erop gericht om een uniek profiel vast te stellen van het individu, en zo vast te kunnen stellen wie de tekst geschreven heeft. De paleografie houdt zich bezig met het bestuderen en ontcijferen van oude handgeschreven boeken, om zo aan de hand van het uiterlijk van de letters zelf (en andere tekstelementen) te kunnen bepalen waar en wanneer iets geschreven is. Het doel van het Digital Forensics-project is om de twee methodes met elkaar te combineren in één digitale omgeving. Door digitale beeldverzamelingen en datasets te combineren en exploreren, willen we een deep learning-systeem ontwikkelen dat de unieke karakteristieken (de vingerafdruk) van een bepaald schriftvoorbeeld matcht met de schriftvoorbeelden die er het meest op lijken. Deze methode is nu voor het eerst mogelijk, omdat grote hoeveelheden beeldmateriaal van handgeschreven teksten uit de middeleeuwen en vroegmoderne tijd digitaal beschikbaar zijn, in een gedeeld standaardformaat: IIIF.

Twee projecten

Het project is onderverdeeld in twee deelprojecten. In het ene project richt de analyse zich op het identificeren van individuele handen (‘wie schreef wat?’). Deze lijn wordt geleid door Matthias van Rossum (IISG), en werkt met vroegmodern materiaal uit de administratie van de Verenigde Oostindische Compagnie. Het tweede project focust zich op het ontwikkelen van een nieuwe manier om middeleeuws schrift te analyseren (‘wat is wanneer en waar geschreven?’). Deze lijn wordt geleid door Mariken Teeuwen (Huygens Instituut), met Hannah Busch (nu werkzaam als onderzoeker aan het Cologne Center for eHumanities) als promovenda. Beide onderzoekslijnen vinden hun fundament in het werk van Rutger van Koert (Afdeling Digtiale Infrastructuur van het KNAW Humanities Cluster), die de software bouwt voor de analyses. Voorts is een team van interne en externe partners betrokken bij het project: zij geven feedback en advies, zowel vanuit hun verschillende historische als technische expertises.