OpenRefine Reconciliation mit lobid-gnd
Fabian Steeg,
Offene Infrastruktur, hbz NRW
GNDCon, 2021-06-10
Diese Präsentation:
http://slides.lobid.org/2021-gndcon-reconcile/
Datenquellen und Oberfläche von lobid-gnd |
Grundlagen der Reconciliation in OpenRefine |
Datenanreicherung auf Basis der Matches |
Möglichkeiten zur Verbesserung des Matching |
Datenquellen und Oberfläche von lobid-gnd |
Grundlagen der Reconciliation in OpenRefine |
Datenanreicherung auf Basis der Matches |
Möglichkeiten zur Verbesserung des Matching |
lobid steht für Linking Open Bibliographic Data
Unter lobid.org publiziert das hbz seit 2011 Linked Open Data (LOD), inzwischen in 3 Diensten
Stellen web-basierte Rechercheoberflächen und Schnittstellen bereit
Die GND wird erstellt und gepflegt durch die GND-Kooperative (Verbünde, Bibliotheken, DNB, ZDB, Agenturen)
Die DNB publiziert die GND u.a. als Linked Open Data
Zusätzliche Anreicherungen, z.B. Links, in EntityFacts
Diese Daten bilden die Grundlage für lobid-gnd
Rechercheoberfläche ermöglicht ein manuelles Erkunden der Daten vor einem automatischen Abgleich
Zum Ausprobieren verlinken die folgenden Screenshots auf die entsprechenden Seiten in lobid-gnd
Siehe auch das Tutorial lobid-gnd: Suche und Navigation
Datenquellen und Oberfläche von lobid-gnd |
Grundlagen der Reconciliation in OpenRefine |
Datenanreicherung auf Basis der Matches |
Möglichkeiten zur Verbesserung des Matching |
"A powerful tool for working with messy data"
"cleaning it; transforming it from one format into another; and extending it with web services and external data"
Oberfläche wie Tabellenkalkulation
Läuft im Browser
Lokal, downloaden und installieren:
https://openrefine.org/download.html
Gehostet, z.B. zum Ausprobieren:
http://openrefine.labs.lobid.org
Abgleichen / Matchen eigener Daten (z.B. Namen von Personen) auf GND-Einträge
Anreicherung durch Übernahme von spezifischen Feldern der gematchten GND-Einträge
openrefine.labs.lobid.org | localhost:3333
name;beruf;ort
J. Weizenbaum;Informatiker;Berlin
Twain, Mark;Schriftsteller;
Kumar, Lalit;;
Jemand;;
https://lobid.org/gnd/reconcile
(Daten und URL per CTRL+C in die Zwischenablage kopieren)
Datenquellen und Oberfläche von lobid-gnd |
Grundlagen der Reconciliation in OpenRefine |
Datenanreicherung auf Basis der Matches |
Möglichkeiten zur Verbesserung des Matching |
Namen wurden mit GND-IDs assoziiert
Felder der GND-Entitäten stehen so zur Verfügung
Mit diesen können wir unsere lokalen Daten anreichern
d.h. konkret: neue Spalten in unserer Tabelle anlegen
Angereicherte Felder sind z.T. GND-Entitäten
Sind automatisch abgeglichen / reconciled
Können als Grundlage für weitere Anreicherung dienen
id,name
1,Haddaway
2,Johannes Geßner
3,Judith Kuckart
4,Rosa Luxemburg
5,Albert Einstein
6,Hazel Brugger
7,Anne Cuneo
8,Vitus Huonder
Reconcile, Berufe und Wirkungsorte ergänzen
Datenquellen und Oberfläche von lobid-gnd |
Grundlagen der Reconciliation in OpenRefine |
Datenanreicherung auf Basis der Matches |
Möglichkeiten zur Verbesserung des Matching |
Einschränkung der Typen der Zielentitäten
Verwendung zusätzlicher lokaler Daten
Gezielte Suche nach Treffern
Verwendung zusätzlicher lokaler Daten
1. Beispiel: Lebensdaten
2. Beispiel: Beruf & Parteizugehörigkeit
Zahlreiche eingebaute Exportformate
Erweiterte Funktionalität durch Extensions
z.B. für Wikidata, vergleichbar für GND denkbar
API-Dokumentation, Tutorials, W3C-Gruppe, etc: