Akademie der Wissenschaften und der Literatur - Mainz

Aufbereitung des Kartenmaterials

Die Bereitstellung der kartierten Sprachdaten in REDE wird in Abhängigkeit von der Form der vorliegenden Daten auf zwei Wegen erreicht:

  1. Liegen die Daten in Form gedruckter Sprachkarten vor, werden diese zunächst gescannt und georeferenziert. Abschließend werden die Sprachdaten von der Karte ökonomisch vom Bildschirm aus in die REDE-Datenbank überführt (Typ 1: Integration moderner Regionalatlanten via Scan, Georeferenzierung und Datenbankerfassung).
  2. Liegen die Daten nicht nur gedruckt, sondern ebenfalls in digitalisierter Form vor, werden die­se Da­­­ten­ so auf­­bereitet, dass sie in die REDE-Datenbank importiert werden kön­nen. Ver­schlüs­­selt vor­lie­gen­de Zeichen­in­for­ma­ti­onen werden in phonetische oder grafische Zeichen kon­­­ver­tiert und die Karten können direkt aus der Datenbank ge­­neriert werden (Typ 2: Integration moderner Regionalatlanten des Deutschen via Datenbankimport).

Im Folgenden werden diese beiden standardisierten Bearbeitungsverfahren beschrieben.

1. Integration moderner Regionalatlanten via Scan, Georeferenzierung und Datenbankerfassung

(1) Erfassen von Primärdaten: Damit der REDE-Nutzer Karten und Daten gezielt suchen kann, werden zentrale Karteninformationen der zu bearbeitenden Karten in einer zentralen Datenbank erfasst. Hierzu gehört die Angabe von

  • Atlastitel (Werk, aus dem die Karte stammt)
  • Bandnummer
  • Kartennummer
  • Kartenkurztitel.

Die Angaben dienen als Übersicht über die zu bearbeitenden Karten. Ebenso bilden die Einträge die Schnittstelle zu den bearbeiteten Kar­ten, die mit ihnen verlinkt werden, und sind damit Grundlage für Abruf- und Such­funk­ti­o­nen der REDE-Benutzeroberfläche.

(2) Digitalisierung: Alle Karten werden in 600dpi ge­scannt (Partnerfirma: graphic sience), auf DVD gebrannt und geprüft.

(3) Georeferenzierung: Anschließend werden die Karten mit dem Programm QGIS so bearbeitet, dass sie unabhängig von Größe, Ausschnitt oder Maßstab übereinander gelegt und miteinander verglichen werden können. Dazu werden einzelnen Bildpixeln Koordinaten zugewiesen (Geokodierung). Mithilfe der gesetzten Passpunkte werden anschließend die Koordinaten für jedes einzelne Pixel berechnet (Referenzierung). Das Resultat dieses Arbeitsschrittes ist eine Karte, die über geographische Informationen verfügt. Anschließend werden die überflüssigen Randbereiche der Karten "abgeschnitten" (Polygonisierung). Um einen schnellen Zugriff (in unterschiedlichen Zoomstufen) auf die Karten zu gewährleisten, werden diese, bevor sie dem Nutzer zugänglich gemacht werden, einem Kompressionsverfahren unterzogen und in ECW-Dateien (Enhanced Compressed Wavelet) umgewandelt. Dieses Verfahren wurde schon im Projekt DiWA angewendet. Weitere Informationen und Anschauungsmaterial finden sich auf der Homepage von DiWA. Gleichzeitig bil­den die Karten die Arbeitsgrundlage für die Arbeitsschritte (6) bis (8).

(4) Legenden erstellen: Die zu den Karten gehörigen Legenden werden als isolierte Dateien abgespeichert, damit sie in einem gesonderten Fenster angezeigt werden können. Dies vereinfacht sowohl die Arbeit mit den Karten als auch das Erfassen der Legendeninformationen in Arbeitsschritt (7).

(5) Zeichensätze erstellen: Damit die Daten der Karten erfasst und in die REDE-Datenbank aufgenommen werden können, werden für jeden Atlas zwei Fonts erstellt, die die linguistischen Informationen und die Kartensymbole re­prä­­sentieren. Für jeden Atlas werden mithilfe der Fonts zwei Zeichensätze erstellt. Ein Zei­chen­­­satz enthält das für die phonetische Umschrift benötigte Symbolinventar und ein wei­terer Zeichensatz enthält das In­ven­tar derjenigen Symbole, die auf den Karten abgebildet sind.

(6) Ortsnetz anlegen: Bevor in der REDE-Datenbank die Zuordnung eines Symbols zu dem Ort, an dem es erscheint, stattfinden kann, wird für jeden Atlas ein Ortsnetz angelegt. In diesem sind die geographischen Informationen für jeden Ort, der in einem bestimmten Atlas erhoben wurde, aufgeführt.

(7) Legendeninformationen erfassen: Mit den in Arbeitsschritt (5) erstellten Zeichensätzen wird für jede Karte eine Legende angelegt, die alle auf einer Karte auftretenden Symbole und deren Auflösung enthält. Die Eingabe der Legenden findet über eine für den jeweiligen  Atlas spezifische Eingabenmaske statt, die eine gezielte Suche der benötigten Zeichen ermöglicht.

(8) Erfassen der Symbole am Ort: Mit Arbeitsschritt (8) findet die eigentliche Verknüpfung von linguistischen (s. Arbeitsschritt (7)) mit geographischen Informationen (s. Arbeitsschritt (6)) statt. Am Ende dieses Arbeits­schrittes ist jedem Er­he­bungs­ort einer Karte eine lin­gu­istische Information zuge­wie­sen und die aufbereiteten Daten können als Karten angezeigt oder nutzer­spe­zi­fisch abgerufen werden. Um diesen sehr zeit­auf­wän­di­gen Arbeitsschritt mög­lichst effizient zu gestalten, wurden für das REDE-SprachGIS spezielle Werkzeuge ent­wickelt.

(9) Erfassen von Metadaten: Damit der REDE-Nutzer Karten und Daten gezielt suchen kann, werden in der REDE-Datenbank für jede Karte bestimmte Informationen festgehalten. Hierzu ge­hört neben den Pri­märdaten z.B. die Angabe von:

  • Kategorie
  • kartiertem Phänomen
  • linguistischer Ebene des kartierten Phänomens (Laut-, Form-, Wort- oder Syntaxkarte)
  • vollständiger Originalklassifikation (Klassifikation der Karte innerhalb des Werks)
  • Abfragekontext des kartierten Phänomens
  • Suchbegriff
  • ...

Ebenso werden dem Nutzer zen­tra­le Eck­daten der zugehörigen Atlanten zur Ver­fü­gung gestellt, wie z.B.

  • Herausgeber
  • Erscheinungsdatum
  • Umfang des Werks
  • Erhebungszeitraum
  • Exploratoren
  • kartierte Sprachebenen
  • Kartierungsverfahren.

(10) Kontrolle: Die Kontrollen der bearbeiteten Karten finden in zwei Schritten statt. Alle Kar­ten werden von den Hilfskräften sowohl in Bezug auf die Metadaten als auch in Bezug auf die Kartenanzeige kontrolliert. Zusätzlich finden Stichprobenkontrollen durch die Be­ar­beiter statt.

2. Integration moderner Regionalatlanten des Deutschen via Datenbankimport

(1) Erfassen von Primärdaten: S. Bearbeitungsverfahren für Typ 1.

(2) Import digitaler Daten in die REDE-Datenbank: Liegen Datensätze der gedruckten Karten vor, entfallen die unter Typ 1 beschriebenen Arbeitsschritte (2) bis (4) sowie (7) und (8). Die Ergebnisse dieser Ar­beits­schritte sind in den vorliegenden Datensätzen enthalten. Da nicht alle Daten in ein und demselben Format verfügbar sind, werden die Datenstrukturen so transformiert, dass sie in die Da­ten­­bank überführt und den Metadaten (s. Arbeitsschritt (9)) zugewiesen werden können.

(3) Aufbereitung digitaler Daten: Die vorliegenden Datensätze unterscheiden sich nicht nur hinsichtlich ihrer Datenstruktur, sondern auch in den verwendeten Speicherformaten. Daher werden diese entschlüsselt und so kon­ver­tiert, dass sie sowohl den Zeichensätzen als auch den geographischen Informationen zugewiesen werden können. Diese Arbeitsschritte führen dazu, dass für jede Karte eine Legende erzeugt werden kann und sich über die Information, an welchem Ort, welche Symbole vorkommen, eine Karte aus der Datenbank erzeugen lässt.

(4) Erfassen von Metadaten: S. Bearbeitungsverfahren für Typ 1.

(5) Kontrolle: S. Bearbeitungsverfahren für Typ 1.

verändert 20.05.2015 durch Anna Wolanska
Impressum | Sitemap | © 2009 - 2016 Forschungszentrum Deutscher Sprachatlas