Making of
Hier beschreibe ich in Zukunft in lockerer Reihenfolge einige Geschichten zur Entstehung der App Meine Pilze.
Making of im Detail
Literaturlisten-Eintrag: Wie entsteht er?
Für die Literaturhinweise reicht es bei weitem nicht, einfach das Inhaltsverzeichis der Bücher zu kopieren, in ein passendes Datenformat umzuwandeln, um es dann in die MeinePilze-Datenbank einfließen zu lassen.
Bei so großen Werken, wie Pilze der Schweiz, Pilzkompendium, Fungi of Temperate Europe, Der Tintling (Pilzzeitung) erfordert die Erfassung oft viele Wochen Arbeit, bei kleinen Werken mit wenigen Pilzarten reichen meist 1 bis 2 Tage.
Erste Schritte
Zunächst scanne ich das ganze Buch mitsamt Inhaltsverzeichnis. Ein OCR-Programm macht es anschließend halbwegs lesbar auf dem Rechner.
Aus dem Inhaltsverzeichnis erstelle ich daraus eine reine einspaltige Textdatei.
Dabei entstehen OCR-Erkennungs-Fehler, wie z.B. "rn" = "m", "1" (Eins) = "l" (kleines L) = "I" (großes I), "st" = "d" usw., die später mehrstufig korrigiert werden müssen. Sieht das unkorrigierbar aus, so experimentiere ich mit verschiedenen Auflösungen und verschiedenen OCR-Programmen.
Die Sortierung des Inhaltsverzeichnisses gestaltet jeder Autor individuell, mal nach Artnamen, mal nach Gattungsnamen, oft steht der Gattungsname nur beim ersten Pilz einer Gattung, etc.
Ein für jedes Buch individuell angepasstes Java-Programm analysiert die Textdatei und erzeugt eine Tabelle mit Artnamen, Gattungsnamen, Varietät, Seitenzahl(en) etc. Zwischenüberschriften, Kommentare, Seitentitel, Sonderzeichen entferne ich. Je nach Komplexität dauert das mehrere Stunden bis einige Tage.
Diese Tabelle lese ich probeweise in meine große MeinePilze-Datenbank ein und vergleiche die dort bereits vorhandenen Pilznamen mit denen dieser neuen Tabelle. Alle nicht gefundenen Namen kennt meine Datenbank nicht oder sie sind falsch geschrieben oder das OCR-Programm hat Fehler gemacht.
Jetzt korrigiere ich zu Fuß die oben erstellte Textdatei, lasse das Java-Programm erneut darauf los und prüfe die Namen erneut in meiner Datenbank. Das wiederhole ich mehrfach.
Unbekannte Pilzarten, die die App noch nicht kennt, lege ich der MeinePilze-Datenbank neu an, überprüfe ihre Schreibweise mit Index-Fungorum, ergänze den Autor, die Familie und einige andere Parameter. Und wieder folgt das Java-Programm und der Abgleich mit der MeinePilze-Datenbank.
Viele in der App nicht vorhandene Namen kennt die App schon unter anderem Namen (z.B. anderes Synonym). Manchmal sind es neu umbenannte Arten, manchmal Phantasienamen (z.B. Arbeitsnamen in der Pilzzeitschrift Der Tintling). Das bedeutet oft intensive Recherchearbeit.
Oft werden in den Büchern Synonyme anders zusammengefasst als in der App MeinePilze. Dann erfolgt der Vergleich mit Index-Fungorum, Mykis und aktuellen Büchern renommierter Autoren. Das artet oft in aufwändige Detektivarbeit aus. Ggf. ändere ich die Zusammenstellung in der App, gliedere einzelne Namen aus oder erstelle einen passenden Bemerkungstext.
Da die App auch Gattungsnamen (z.B. Amanita _spec) unterstützt, erzeuge ich zu jeder gefundenen Gattung einen eigenen Gattungseintrag. Dieser bekommt halbautomatisch die Seitenzahl des ersten Vorkommens einer Gattung im Pilzbuch.
Die Hauptarbeit
Beim seitenweisen Durchblättern des Buchscans prüfe ich die Seitenangaben auf Richtigkeit. Jede Seitenzahl erhält einen Spezialcode, an dem ich erkenne, ob es sich im Buch um einen Hauptnamen, ein Synonym, einen Vergleichstext, eine Randbemerkung, ein Bild, einen Schlüsseleintrag etc. handelt. Dazu kommt eine Kennung zur Absatznummer auf der Seite. Jede bearbeitete Fundstelle markiere ich mir im Buchscan.
Weiterhin erzeuge ich Einträge, wie echte Gattungseinträge, Schlüsselkennungen, im Inhaltsverzeichnis nicht aufgelistete Pilzarten etc.
Zum Abschluss kopiere ich die fertige Seitenzahlliste in das Literaturverzeichnis der MeinePilze-Datenbank.
Das Verzeichnis unter MeinePilze/Literatur wird definiert und eine für das Buch individuelle Scan-Anleitung für die App-User entsteht.
Bei den früher in der App erfassten Büchern fehlt noch ein Teil der unter Hauptarbeit aufgeführten Arbeitsschritte (vor allem Teile des dort aufgeführten Spezialcodes). Diese aufwändige Arbeit hole ich von Zeit zu Zeit für einzelne Werke nach.
Das Ergebnis
Der App-User sieht von alle dem nichts. Er findet lediglich einen neuen Eintrag in der Literaturliste und eine Scan-Anleitung in den Hilfetexten.
Wird ein Pilz mehrfach im Buch aufgeführt, so erscheint ein rotes M (Mehrfacheintrag) beim Literatureintrag.
Klickt man auf solch einen Eintrag etwas länger, erscheint eine anklickbare Liste, auf welcher Seite, in welchem Absatz, in welcher Form und unter welchem Namen der Pilz im Buch vorkommt. Dabei kommt der oben genannte Spezialcode zu den Seitenzahlen zum Einsatz.
Fehlt das rote M, so erscheint dennoch diese Zusatzinformation.