Transkription

Das Deutsche Textarchiv (DTA) erfasst strukturelle und linguistische Merkmale deutschsprachiger Texte des 17. bis 19. Jahrhunderts, mit dem Ziel „ein ausgewogenes historisches Referenzkorpus in deutscher Sprache zu schaffen“ . Unter anderem stellen sie eine frei verfügbare Transkription von Davidis' Kochbuch in zur Verfügung. Abb. 1a zeigt den Scan eines Rezeptes und Abb. 1b die in TEI transkribierte Version des Rezeptes. Wir sind allerdings nicht an linguistischen oder strukturellen Merkmalen interessiert, sondern bereiten eine kulinarische Analyse vor. Dementsprechend haben wir die Kodierung des DTA für unsere Zwecke überarbeitet. Dies ist in Abb. 1c zu sehen.

Abb. 1: Transkription von Davidis Kochbuch
Abb. 1a
Eingescanntes Rezept B-3
Abb. 1b
TEI Kodierung von Rezept B-3
Abb. 1c
Unsere überarbeitete TEI Kodierung von Rezept B-3

Zum einen haben wir kodierte Sonderzeichen zu Gunsten der Lesbarkeit durch ihre entsprechende Standard-Pendants ersetzt; z.B das „ſ“ (lange S) durch ein heute übliches „s“ (rundes S). Dazu haben wir strukturelle Merkmale wie die Kodierung von Zeilenumbrüchen (<lb/>) oder die Verschachtelungstiefe innerhalb des Buches (<div n="3"/>) entfernt. Stattdessen haben wir jedes Rezept, welches zu unseren Zielobjekten gehört, in einem einheitlichen Tag (<cue:recipe>) gekapselt. Zusätzlich haben wir das Tag für Rezepte mit der Kapitelüberschrift als Typ angereichert (type="Suppen"), sowie eine eindeutige ID vergeben (rcp-id="B-3"). Des Weiteren haben wir die interne Kapitel­nummerierung (3.) aus der Rezept-Überschrift entfernt, da diese nichts zur kulinarischen Analyse beiträgt, jedoch bei separater Betrachtung irreführend ist.

Der Vollständigkeit halber sei erwähnt, dass das DTA die Transkription von Nicht-Muttersprachlern im Double-Keying-Verfahren hat durchführen lassen. Ihre Intention dabei ist, dass so unbewusste Modernisierungen, Korrekturen und Wertungen beim Transkribieren vermieden werden. Allerdings führt das zu Fehlern wie Eßlöſſel statt Eßlöffel. Dem aufmerksamen Leser wird aufgefallen sein, dass Ersteres (Eßlössel) kein deutsches Wort ist. In diesem Beispiel wurde fälschlicherweise das „ff“ für zwei lange „s“ gehalten. Sofern uns solche Fehler aufgefallen sind, haben wir sie in unserer Transkription korrigiert.

Abschließend sei darauf hingewiesen, das sämtliche Anerkennung der Arbeit, die Kodierung des DTA zu unserer Kodierung zu transformieren, meinem betreuenden Prof. Herrn Luttenberger gebührt, wie in diesem Blog-Abschnitt zu lesen ist.