Das Internet hat eine Revolution unserer Kommunikation verursacht. Frühe Formen wie Email und das Web haben bereits fundamentale Änderungen der Art und Weise bewirkt, wie wir kommunizieren und Produkte und Dienste erwerben bzw. konsumieren. Und dieser Prozess bleibt nicht einfach stehen. Immer neue Kommunikationskanäle erblühen auf dieser Infrastruktur und bieten Möglichkeiten für erfolgreiches eMarketing und eCommerce. Die stetig wachsende Vielfalt der Kanäle erfordert eine kanalunabhängige Modellierung von Information, Daten und Diensten. Unabhängig von der konkreten Darstellung in einem bestimmten Kanal wird eine maschinenlesbare Bereitstellung existentiell. Damit können die verschiedensten Bots diese Inhalte „verstehen“ und ihren Benutzern zur Verfügung stellen. Anders droht die Unsichtbarkeit von Dienstanbietern. Und was sich nicht in unserer breiten Wahrnehmung manifestiert, existiert irgendwann nicht mehr.
Information, Daten und Dienste müssen also weltweit sichtbar und maschinenlesbar angeboten werden. Die Deutsche Zentrale für Tourismus (DZT) hat diese Herausforderung erkannt und mit dem Aufbau eines offenen deutschen touristischen Wissensgraphen begonnen. Nur so kann der wirtschaftliche Stellenwert dieser Branche gesichert werden, die sich in Zukunft wahrscheinlich in ihrer relativen Bedeutung in Deutschland erhöhen wird. Eine offene und maschinenlesbare Beschreibung der touristischen Angebote ermöglicht eine optimierte Sichtbarkeit in all den neuen Kommunikationskanälen auf einer internationalen Ebene.
Ein bedeutendes Problem in der Erstellung von Wissensgraphen ist die Identifikation von Duplikaten. Wenn Daten aus unterschiedlichen und heterogenen Datenquellen integriert werden muss untersucht werden, welche Daten sich überlappen und daher unterschiedliche Beschreibungen desselben Objektes liefern. Sich dieser Aufgabe nicht zu stellen, heißt für dasselbe Objekt unterschiedliche (u.U. sich widersprechende) Beschreibungen anzubieten. Erfolgsversprechender ist es, Duplikate zu erkennen und deren Beschreibungen zu integrieren und zu vereinheitlichen. Dieses Problem der Informationsintegration wurde erstmals 1946 explizit unter dem Namen Record Linkage formuliert [Dunn, 1946]. Record Linkage hat mittlerweile eine Vielfalt von Namen erhalten: Author‐ Name Disambiguation, Data Deduplication, Entity Linking, Identity Resolution, Schema Matching und Single‐Instance Storage (siehe Abbildung 1). Immer geht es um das Problem, verschiedene syntaktische Bezeichner auf dasselbe semantische Objekt zu reduzieren.
Es ist daher eine sehr zukunftsweisende Entscheidung des DZT dieses Problem nicht zu ignorieren, sondern unmittelbar bei dem Aufbau des Wissensgraphen anzugehen. Andernfalls würde sich die Gefahr ergeben, dass ein scheinbar kleines Unterproblem sich als schwarzen Loch für den Gesamtansatz erweisen würde.
In der vorliegenden Arbeit wird daher der Prozess für die Bereitstellung von Bezeichnern für heterogene Datensätze im deutschen Tourismus spezifiziert und prototypisch implementiert. Nach einer Einleitung werden in Kapitel 2 die Definitionen für Uniform Resource Identifiers (URIs) bereitgestellt. Die Verwendung dieses Standards als Bezeichner für Objekte ist in einem internet‐ und webbasierten Umgebung die einzig plausible Entscheidung. DZT hat für einen ersten Ansatz vier relevante Themengebiete im Tourismus identifiziert:
Für jeden dieser Bereiche wurden mögliche webbasierte URI Quellen identifiziert (Kapitel 3) und in Kapitel 4 Auswahlkriterien für diese Quellen definiert (siehe Knowledge Assessment und Data Quality, [Fensel et al., 2020]). In Kapitel 5 werden Algorithmen zur Auswahl dieser Quellen spezifiziert und in Kapitel 6 verschiedene Ansätze für die Generierung neuer URIs entwickelt, die den Fall abdecken, dass kein existierender Bezeichner für ein neues Objekt gefunden werden konnte. Kapitel 7 und 8 spezifizieren ein prototypisch entwickeltes System, welches diese Konzepte effizient implementiert. Verwandte Arbeiten, alternative Ansätze und Schlussfolgerungen werden in den Kapiteln 9, 10 und 11 erläutert.
Das DZT hat zum richtigen Zeitpunkt die Initiative für einen deutschen touristischen Open Knowledge Graph gestartet. Ein erster Schritt ist die Definition eindeutiger Bezeichner für touristische Objekte. Im zweiten Schritt ist die Erfassung standardisierter und maschinenlesbarer Beschreibungen dieser Objekte der eigentliche Kern dieses Ansatzes. Wir freuen uns hierbei die DZT bei der Spezifikation, Umsetzung und Unterhaltung dieses Knowledge Graphen behilflich zu sein, um so dem deutschen Tourismus die internationale Sichtbarkeit und Buchbarkeit zu garantieren.