Digitalisering historische kranten

Het project Databank Digitale Dagbladen van de KB omvat de digitalisering en onlinebeschikbaarstelling van 9 miljoen pagina’s uit een selectie van Nederlandse landelijke, regionale, lokale en koloniale dagbladen (1618-1995). In 2010 werd de webdienst gelanceerd en eind 2012 zullen de 9 miljoen pagina’s beschikbaar zijn. Voor het IMPACT-project heeft het INL een historisch OCR-lexicon ontwikkeld dat met name gebaseerd is op het Woordenboek der Nederlandsche Taal en een softwaremodule waarmee het lexicon ingezet kan worden met Finereader 10. Circa 1,2 miljoen pagina’s met kranten uit de 17e eeuw (Opregte Haerlemse Courant) tot en met de 20e eeuw (Telegraaf) zullen worden gedigitaliseerd met behulp van het lexicon. Uit onderzoek dat met materiaal uit het project is uitgevoerd, is gebleken dat het rendement van deze op historische tekst toegespitste software en data 20 procent hoger ligt. CSS heeft het lexicon en de softwaremodule gekocht om de resultaten van de geautomatiseerde tekenherkenning (OCR) te optimaliseren.

De webdienst is tot stand gekomen in het kader van het Nationaal Programma Grootschalige Onderzoeksfaciliteiten van NWO/Agentschap NL. Het IMPACT-project is een FP7-project dat in 2008 is gestart en medio 2012 eindigt. Resultaten van het IMPACT-project zullen beschikbaar worden gesteld door het IMPACT Centre of Competence (www.digitisation.eu).

Bron: INL