Historische Erstausgaben als E-Book lesen

Das Deutsche Textarchiv erstellt einen Referenzkorpus der neuhochdeutschen Sprache und digitalisiert in diesem Zuge Erstausgaben von Büchern aus dem Zeitraum von ca. 1600 bis 1900. In diesem Artikel wird gezeigt, wie man sich aus den digitalisierten Texten ein E-Book erstellt.

Das Deutsche Textarchiv ist ein computerlinguistisches Projekt. Es »stellt einen disziplinen- und gattungsübergreifenden Grundbestand deutschsprachiger Texte aus dem Zeitraum von ca. 1600 bis 1900 bereit. […] Um den historischen Sprachstand möglichst genau abzubilden, werden als Vorlage für die Digitalisierung in der Regel die Erstausgaben der Werke zugrunde gelegt. Das elektronische Volltextkorpus des DTA ist über das Internet frei zugänglich und dank seiner Aufbereitung durch (computer-)linguistische Methoden schreibweisentolerant über den gesamten jeweils verfügbaren Bestand durchsuchbar. Sämtliche Texte stehen zum Download zur Verfügung.« Leider stellt das DTA die Texte nicht in einem E-Book-Format wie EPUB zur Verfügung, sodass man die Werke nicht so ohne Weiteres auf seinem E-Book-Reader lesen kann. In einem Forumsbeitrag erläutert ein Mitarbeiter des DTA die Gründe, warum das so ist. Eine E-Book-Funktion, so der Mitarbeiter, sei Planung, mache aber noch einige Schwierigkeiten.

E-Book selber bauen

Bis das DTA die Texte als E-Book anbietet, bleibt uns also nichts anderes übrig, als uns die E-Books selbst zu bauen. Glücklicherweise ist dies recht einfach.

1. Text herunterladen

Auf der Startseite des DTA befindet sich ganz oben eine Suchmaske. Dort kann man nach Werken bzw. Autoren suchen. Standardmäßig sucht die Suche im gesamten Textkorpus. Man erkennt das daran, dass der Radiobutton ›im Korpus‹ ausgewählt ist. Für unsere Zwecke ist es sinnvoller, wenn wir ›in den Titeldaten‹ nach unserem Suchbegriff suchen. Wählen wir also ›in den Titeldaten‹ aus und geben wir den Suchbegriff ›Schiller‹ ein. Die Suchfunktion macht uns sofort detailliertere Suchvorschläge. Wir wählen den ersten angezeigten Vorschlag aus: ›Schiller, Friedrich von: Ueber die ästhetische Erziehung des Menschen in einer Reyhe von Briefen. In: Schiller, Friedrich von (Hg.): Die Horen. Tübingen, 1795. S. 7-48.‹. Die Suche führt uns schließlich zur Seite des Schillerschen Werkes von 1795. Dort findet man zahlreiche Informationen über das Werk. Auf der rechten Seite befinden sich Links zu Ansichten des Werkes. So kann man beispielsweise in der ›Text-Bild-Ansicht‹ den Scan und die transkribierte digitale Textfassung nebeneinander betrachten. Darunter befinden sich die Download-Links. Wir laden das Werk für unsere Zwecke als einfache Textdatei herunter.

2. Text putzen

Der Screenshot zeigt, wie sich die geöffnete Textdatei in einem Texteditor darstellt.

Der Text von »Ueber die ästhetische Erziehung des Menschen in einer Reyhe von Briefen«

Der Text von »Ueber die ästhetische Erziehung des Menschen in einer Reyhe von Briefen«

Um ein angenehmes Leseerlebnis zu haben, müssen wir die Datei ein wenig putzen. So enthält sie beispielsweise noch die Hinweise auf die Seitennummern der Erstausgabe.

Ueber diejenigen Ideen, welche in dem praktischen
FF
[9/0003]
Theil des Kantischen Systems die herrschenden sind,

Vor den Seitennummern steht ein zumeist unsichtbares Formfeed-Zeichen. In guten Texteditoren wird es als ›FF‹ dargestellt. Diese Stellen müssen wir aus dem Text entfernen. Am besten gelingt dies mit einer Suchen-und-Ersetzen-Funktion, die auch reguläre Ausdrücke berücksichtigt. Das Formfeed-Zeichen müssen wir dabei mittels Copy&Paste übertragen. Im Sublime Editor sieht die Ersetzungsfunktion folgendermaßen aus:

Suchen und Ersetzen mit regulären Ausdrücken

Suchen und Ersetzen mit regulären Ausdrücken

Mit \n wird ein Zeilenumbruch gefunden. Das Formfeed-Zeichen haben wir ins Suchfeld kopiert. Die eckigen Klammern werden mit [ und ] gefunden, sie müssen mit dem Backslash maskiert werden, weil sie auch eine Funktion in regulären Ausdrücken haben können. Der reguläre Ausdruck .* findet jedes beliebige Zeichen, sodass alle Seitennummernangaben zwischen den eckigen Klammern gefunden werden. Den gesamten Ausdruck ersetzen wir durch ein Leerzeichen.

Der Satz läuft nun ohne Unterbrechung durch:

Ueber diejenigen Ideen, welche in dem praktischen Theil des Kantischen Systems

Damit wäre der Text im Großen und Ganzen gesäubert. Da wir den Text mit Hilfe von Pandoc in ein E-Book umwandeln möchten, müssen wir jedoch die Absätze durch eine Leerzeile voneinander trennen. Auch dies ist mit Suchen und Ersetzen schnell erledigt. Er ersetzen einfach jeden Zeilenumbruch durch zwei Zeilenumbrüche.

Aus einem Zeilenumbruch werden zwei.

Aus einem Zeilenumbruch werden zwei.

In dieser Form könnten wir den Text bereits konvertieren. Allerdings wollen wir nun noch einige Verschönerungen anbringen.

3. Kapitel auszeichnen

Um später besser im Reader navigieren zu können, möchten wir die Kapitel auszeichnen. Da in diesem Text die Kapitel völlig gleichförmig als erster, zweiter, dritter Brief usw. bezeichnet sind, können wir wieder mit Suchen und Ersetzen arbeiten. Die Überschriften lauten zum Beispiel:

Erster Brief.
Zweyter Brief.

Und sie stehen sämtlich in einer eigenen Zeile. Die Suche nach solchen Überschriften sieht also folgendermaßen aus:

Mit Suchen und Ersetzen zeichnen wir die Kapitelüberschriften aus.

Mit Suchen und Ersetzen zeichnen wir die Kapitelüberschriften aus.

Dieser reguläre Ausdruck ist etwas umfangreicher. Zunächst packen wir den gesamten Suchausdruck in runde Klammern. Der Inhalt der Fundstelle wird dann nämlich zwischengespeichert und kann mit $1 abgerufen werden, sodass wir den Inhalt in unser Ersetzungsfeld übernehmen können. Innerhalb der runden Klammern suchen wir zuerst mit ^ nach dem Anfang einer Zeile. Dann suchen wir mit .* nach einer beliebigen Zeichenfolge gefolgt von der Zeichenfolge Brief. (der Punkt muss wieder mit einem Backslash maskiert werden). Mit dem Zeichen $ stellen wir sicher, dass damit die Zeile beendet ist. Die Fundstelle wird ersetzt durch eine Raute gefolgt von dem Inhalt der Fundstelle, die jeweils in $1 zwischengespeichert ist. Überschriften werden also mit dem Rautensymbol markiert. Wir bedienen uns hier der Markdown-Syntax, die in Pandoc unterstützt wird. Nach der Ersetzung sind unsere Überschriften ausgezeichnet:

# Erster Brief.
Sie wollen mir also vergönnen...

4. Metadaten eingeben

Damit wir unser E-Book auf unserem Reader gut handhaben können, sollte es natürlich über die entsprechenden Metadaten verfügen. Diese tragen wir am Anfang der Datei ein.

---
title: Ueber die ästhetische Erziehung des Menschen in einer Reyhe von Briefen (*).
author: Friedrich von Schiller
---

Dies ist ein YAML-Block, der von Pandoc genutzt wird, um die dort verzeichneten Metadaten in das E-Book zu übertragen.

5. Datei in ein E-Book konvertieren

Nun müssen wir die Datei bloß noch in ein E-Book konvertieren. Der Befehlsaufruf lautet folgendermaßen:

$ pandoc -f markdown -t epub3 schiller_erziehung01_1795.txt -o schiller_erziehung01_1795.epub

Wir konvertieren die Datei schiller_erziehung01_1795.txt aus dem Format markdown (-f) in das Format epub3 (-t) und die Ausgabedatei (-o) soll den Namen schiller_erziehung01_1795.epub haben. Fertig ist unser E-Book mit Schillers Briefen über die ästhetische Erziehung des Menschen.

In dem Buch ›Das ZEN von Pandoc‹ habe ich die Möglichkeiten von Pandoc ausführlich beschrieben.