Papieren documenten vertonen de vervelende eigenschap dat ze in de loop der tijd steeds slechter leesbaar worden en bij het digitaliseren van oude archieven levert dit grote problemen op. Een student van de onderzoeksgroep Digital Mathematics van de Vrije Universiteit Brussel (VUB) heeft voor zijn doctoraat een prijswinnende software ontwikkeld die niet in de war raakt door scheuren, vlekken of slechte scans. Hij heeft nu met succes zijn proefschrift verdedigd.

Op dit moment worden er in de cultureel erfgoedsector omvangrijke digitaliseringsprojecten uitgevoerd. Daarbij worden grote hoeveelheden oude kranten en andere manuscripten ingescand, om vervolgens via zogenoemde Optical Character Recognition (OCR) te worden gedigitaliseerd. OCR of optische tekenherkenning is een systeem waarbij uit een afbeelding de tekens automatisch herkend worden en opgeslagen. Een eerder primitief voorbeeld daarvan is de automatische nummerplaatherkenning.

Het herkennen van de tekens is van essentieel belang omdat de documenten zo doorzoekbaar worden, waardoor informatie veel makkelijker kan teruggevonden worden. Ook kan de tekst gecopy-pastet worden voor gebruik elders. OCR is echter nog altijd verre van perfect. De gebruikte algoritmes hebben moeite met materiële schade aan pagina’s, zoals scheuren en vlekken. Bovendien kan de computer in de war raken van de moeilijke tekstopmaak die vaak voorkomt in reclames en modetijdschriften, waarbij tekst bijvoorbeeld geschreven is in verschillende lettertypes, kleuren of aan beide kanten van een afbeelding staat.

Voor zijn doctoraatsonderzoek heeft doctor Tan Lu onder leiding van professor wiskunde Ann Dooms een reeks zogenoemde homogeniteitsmodellen ontwikkeld die de computer helpen zijn tekstherkenning sterk te verbeteren.

Lees meer op: https://www.vrt.be/vrtnws/nl/2020/12/09/vub-ontwikkelt-software-die-oude-documenten-beter-kan-scannen/