LZV.nrw | Vortrag auf der BiblioCon2025

Vortrag der Landesinitiative Langzeitverfügbarkeit - LZV.nrw - auf der BiblioCon 2025: „Damit hätten wir schon viel früher anfangen sollen“ - Vorvalidierung von Dateiformaten
  • Wann 27.06.2025 von 10:30 bis 11:00 (Europe/Berlin / UTC200)
  • Wo BiblioCon 2025, Messe und Congress Centrum Bremen, Kaisen Saal (mit Streaming)
  • Web Externe Webseite besuchen
  • Termin zum Kalender hinzufügen iCal

Die Themen Langzeitverfügbarkeit (LZV) und Langzeitarchivierung sind für immer mehr Bibliotheken ein aktuelles Thema. Die Einlieferung von digitalen Daten in ein LZV-System ist häufig die erste Gelegenheit, zu der digitale Ressourcen aus den Repositorien der Bibliothek mit anderen Systemen interagieren. Hier werden oftmals Probleme sichtbar, die unter Umständen schon länger existieren: nicht wohlgeformte und invalide Dateien.
Invalide Dateien können häufig von Programmen geöffnet und von Menschen gelesen werden, sind aber mittelfristig ein Risiko für die Interpretation des enthaltenen Wissens. Daher ist für die LZV eine hohe Datenqualität essenziell. So sollten zum Beispiel alle signifikanten Eigenschaften einer Datei erhalten und extrahierbar bleiben, um in Zukunft eine Dateiformatmigration durchführen zu können.
Fehler in invaliden Dateien können nicht immer einfach gelöst werden, da die Datenproduzenten eventuell nicht mehr erreichbar sind. Um dies zu vermeiden, sollte daher eine Vorvalidierung durchgeführt werden – mindestens vor der Einlieferung in ein LZV-System, am besten aber schon vor der Abgabe durch die Datenproduzenten.

Der Vortrag gibt einen Einstieg in die Validierung und erklärt neben dem Unterschied zwischen wohlgeformten und validen Dateien, wieso Formatidentifizierung, Validierung und Konvertierung schwierig voneinander abzugrenzen sind. Es sollen eine Formatidentifizierung und -validierung gezeigt und Beispiele erörtert werden.

Außerdem werden einige der zahlreichen Tools vorgestellt, die zur Validierung verschiedener Dateiformate genutzt werden können. Damit Bibliotheken in Zukunft eine möglichst hohe Datenqualität in ihren Quellsystemen gewährleisten können, wird abschließend ein Blick auf Best Practices zur Erreichung einer initial hohen Datenqualität geworfen. Hier liegt der Fokus auf Konventionen zur Dateierstellung, oder Policies, nach denen zum Beispiel nur valide Dateien angenommen werden.

 

Der Vortrag findet im Vortragsblock Langzeitverfügbarkeit des Themenkreis 5: Digitalität und KI statt und richtet sich an Datenkurator*innen mit Interesse an Langzeitverfügbarkeit.