Aufbereitung des Kartenmaterials
Die Bereitstellung der kartierten Sprachdaten in REDE wird in Abhängigkeit von der Form der vorliegenden Daten auf zwei Wegen erreicht:
- Liegen die Daten in Form gedruckter Sprachkarten vor, werden diese zunächst gescannt und georeferenziert. Abschließend werden die Sprachdaten von der Karte ökonomisch vom Bildschirm aus in die REDE-Datenbank überführt (Typ 1: Integration moderner Regionalatlanten via Scan, Georeferenzierung und Datenbankerfassung).
- Liegen die Daten nicht nur gedruckt, sondern ebenfalls in digitalisierter Form vor, werden diese Daten so aufbereitet, dass sie in die REDE-Datenbank importiert werden können. Verschlüsselt vorliegende Zeicheninformationen werden in phonetische oder grafische Zeichen konvertiert und die Karten können direkt aus der Datenbank generiert werden. (Typ 2: Integration moderner Regionalatlanten des Deutschen via Datenbankimport).
Im Folgenden werden diese beiden standardisierten Bearbeitungsverfahren beschrieben.
1. Integration moderner Regionalatlanten via Scan, Georeferenzierung und Datenbankerfassung
(1) Erfassen von Primärdaten: Damit der REDE-Nutzer Karten und Daten gezielt suchen kann, werden zentrale Karteninformationen der zu bearbeitenden Karten in einer zentralen Datenbank erfasst. Hierzu gehört die Angabe von
- Atlastitel (Werk, aus dem die Karte stammt)
- Bandnummer
- Kartennummer
- Kartenkurztitel.
Die Angaben dienen als Übersicht über die zu bearbeitenden Karten. Ebenso bilden die Einträge die Schnittstelle zu den bearbeiteten Karten, die mit ihnen verlinkt werden, und sind damit Grundlage für Abruf- und Suchfunktionen der REDE-Benutzeroberfläche.
(2) Digitalisierung: Alle Karten werden in 600dpi gescannt (Partnerfirma: graphic sience), auf DVD gebrannt und geprüft. Abschließend werden sie in das für die weitere Bearbeitung mit dem ER Mapper notwendige Format (.ers) umgewandelt.
(3) Georeferenzierung: In diesem Format werden die Karten mit dem Programm ER Mapper (Partnerfirma: ERDAS) so bearbeitet, dass sie unabhängig von Größe, Ausschnitt oder Maßstab übereinander gelegt und miteinander verglichen werden können. Dazu werden einzelnen Bildpixeln Koordinaten zugewiesen (Geokodierung). Mithilfe der gesetzten Passpunkte werden anschließend die Koordinaten für jedes einzelne Pixel berechnet (Referenzierung). Das Resultat dieses Arbeitsschrittes ist eine Karte, die über geographische Informationen verfügt. Anschließend werden die überflüssigen Randbereiche der Karten "abgeschnitten" (Polygonisierung). Um einen schnellen Zugriff (in unterschiedlichen Zoomstufen) auf die Karten zu gewährleisten, werden diese, bevor sie dem Nutzer zugänglich gemacht werden, einem Kompressionsverfahren unterzogen und in ECW-Dateien (Enhanced Compressed Wavelet) umgewandelt. Dieses Verfahren wurde schon im Projekt DiWA angewendet. Weitere Informationen und Anschauungsmaterial finden sich auf der Homepage von DiWA (s. Beispielkarte aus dem "Sprachatlas des Deutschen Reichs" von Georg Wenker). Gleichzeitig bilden die Karten die Arbeitsgrundlage für die Arbeitsschritte (6) bis (8).
(4) Legenden erstellen: Die zu den Karten gehörigen Legenden werden als isolierte Dateien abgespeichert, damit sie in einem gesonderten Fenster angezeigt werden können. Dies vereinfacht sowohl die Arbeit mit den Karten als auch das Erfassen der Legendeninformationen in Arbeitsschritt (7).
(5) Zeichensätze erstellen: Damit die Daten der Karten erfasst und in die REDE-Datenbank aufgenommen werden können, werden für jeden Atlas zwei Fonts erstellt, die die linguistischen Informationen und die Kartensymbole repräsentieren. Für jeden Atlas werden mithilfe der Fonts zwei Zeichensätze erstellt. Ein Zeichensatz enthält das für die phonetische Umschrift benötigte Symbolinventar und ein weiterer Zeichensatz enthält das Inventar derjenigen Symbole, die auf den Karten abgebildet sind.
(6) Ortsnetz anlegen: Bevor in der REDE-Datenbank die Zuordnung eines Symbols zu dem Ort, an dem es erscheint, stattfinden kann, wird für jeden Atlas ein Ortsnetz angelegt. In diesem sind die geographischen Informationen für jeden Ort, der in einem bestimmten Atlas erhoben wurde, aufgeführt.
(7) Legendeninformationen erfassen: Mit den in Arbeitsschritt (5) erstellten Zeichensätzen wird für jede Karte eine Legende angelegt, die alle auf einer Karte auftretenden Symbole und deren Auflösung enthält. Die Eingabe der Legenden findet über eine für den jeweiligen Atlas spezifische Eingabenmaske statt, die eine gezielte Suche der benötigten Zeichen ermöglicht.
(8) Erfassen der Symbole am Ort: Mit Arbeitsschritt (8) findet die eigentliche Verknüpfung von linguistischen (s. Arbeitsschritt (7)) mit geographischen Informationen (s. Arbeitsschritt (6)) statt. Am Ende dieses Arbeitsschrittes ist jedem Erhebungsort einer Karte eine linguistische Information zugewiesen und die aufbereiteten Daten können als Karten angezeigt oder nutzerspezifisch abgerufen werden. Um diesen sehr zeitaufwändigen Arbeitsschritt möglichst effizient zu gestalten, wurden für den ISSG-Editor spezielle Arbeitstools entwickelt.
(9) Erfassen von Metadaten: Damit der REDE-Nutzer Karten und Daten gezielt suchen kann, werden in der REDE-Datenbank für jede Karte bestimmte Informationen festgehalten. Hierzu gehört neben den Primärdaten z.B. die Angabe von:
- Kategorie
- kartiertem Phänomen
- linguistischer Ebene des kartierten Phänomens (Laut-, Form-, Wort- oder Syntaxkarte)
- vollständiger Originalklassifikation (Klassifikation der Karte innerhalb des Werks)
- Abfragekontext des kartierten Phänomens
- Suchbegriff
- ...
Ebenso werden dem Nutzer zentrale Eckdaten der zugehörigen Atlanten zur Verfügung gestellt, wie z.B.
- Herausgeber
- Erscheinungsdatum
- Umfang des Werks
- Erhebungszeitraum
- Exploratoren
- kartierte Sprachebenen
- Kartierungsverfahren.
(10) Kontrolle: Die Kontrollen der bearbeiteten Karten finden in zwei Schritten statt. Alle Karten werden von den Hilfskräften sowohl in Bezug auf die Metadaten als auch in Bezug auf die Kartenanzeige kontrolliert. Zusätzlich finden Stichprobenkontrollen durch die Bearbeiter statt.
2. Integration moderner Regionalatlanten des Deutschen via Datenbankimport
(1) Erfassen von Primärdaten: S. Bearbeitungsverfahren für Typ 1.
(2) Import digitaler Daten in die REDE-Datenbank: Liegen Datensätze der gedruckten Karten vor, entfallen die unter Typ 1 beschriebenen Arbeitsschritte (2) bis (4) sowie (7) und (8). Die Ergebnisse dieser Arbeitsschritte sind in den vorliegenden Datensätzen enthalten. Da nicht alle Daten in ein und demselben Format verfügbar sind, werden die Datenstrukturen so transformiert, dass sie in die Datenbank überführt und den Metadaten (s. Arbeitsschritt (9)) zugewiesen werden können.
(3) Aufbereitung digitaler Daten: Die vorliegenden Datensätze unterscheiden sich nicht nur hinsichtlich ihrer Datenstruktur, sondern auch in den verwendeten Speicherformaten. Daher werden diese entschlüsselt und so konvertiert, dass sie sowohl den Zeichensätzen als auch den geographischen Informationen zugewiesen werden können. Diese Arbeitsschritte führen dazu, dass für jede Karte eine Legende erzeugt werden kann und sich über die Information, an welchem Ort, welche Symbole vorkommen, eine Karte aus der Datenbank erzeugen lässt.
(4) Erfassen von Metadaten: S. Bearbeitungsverfahren für Typ 1.
(5) Kontrolle: S. Bearbeitungsverfahren für Typ 1.