Passend zum Jahresabschluss 2024 ist eine weitere große OCR-Einspielung erfolgt. Sie umfasst ca. 570.000 Seiten, die jetzt alle im Volltext durchsuchbar sind. Die Projektzahlen zum Jahresende sind beeindruckend.
Das Portal enthält knapp 20 Millionen Seiten (19.881.657), von denen etwas über 17 Millionen (17.153.710) inzwischen zur Benutzung freigegeben sind. Wir haben also momentan eine „Halde“ im System von gut
2.700.000 Seiten, die noch der Bearbeitung harren, darunter viele Zeitungen aus Wuppertal. Durch eine Texterkennung gelaufen sind bis jetzt 16.789.416 Seiten, das entspricht einer Volltextquote von 97,8%!
Ausweislich unserer Benutzungsstatistikzahlen hat sich die Zahl der Besuche gegenüber dem Vorjahr mehr als verdreifacht, die Zahl der PDF-Downloads verdoppelt. Diese Zahlen sind aber mit Vorsicht zu genießen, weil wir erkennbar sehr viele Robot- und Botszugriffe haben, gerade aus den USA und China. Klar ist aber: Das Portal ist sehr beliebt und wird immer stärker benutzt!!
Nachfolgend die Liste der gerade durch eine OCR-gelaufenen Titel. Es handelt sich um Zeitungen, die entweder vollständig eine Texterkennung erfahren haben oder bei denen noch vorhandene Lücken geschlossen werden:
Amtliches Mitteilungsblatt für den Kreis Höxter Bochumer Kreisblatt Briloner Zeitung Corveyisches Intelligenzblatt Der Tag des Herren Der Weserbote Diemel-Bote Edertal-Zeitung Erkelenzer Kreisblatt Gelsenkirchener Zeitung General-Anzeiger für Düsseldorf und Umgegend General-Anzeiger für Essen und Umgegend Herner Anzeiger Höxtersche Zeitung Huxaria Leo Sonntagsblatt für das katholische Volk Lüdenscheider General-Anzeiger Neue Westfälische Zeitung NS-Volksblatt für Westfalen Sauerländer Zeitung Sauerländischer Anzeiger Soester Kreisblatt Warsteiner Zeitung Westfälische Nachrichten Westfälischer Merkur Westfälisches Volksblatt Westfälische Volks-Zeitung Zeno-Zeitung
In einem nächsten Arbeitsschritt werden dann ca. 155.000 Seiten, die vor über 10 Jahren durch eine OCR-Erkennung gelaufen sind, mit besseren Volltexten versehen.
Mit freundlichen Grüßen und den besten Wünschen für 2025
Michael Herkenhoff
Quelle: WestfGen