Institutional Books 1.0: Ein 242B-Token-Datensatz aus den Sammlungen der Harvard Library, optimiert für Genauigkeit und Nutzbarkeit.
Institutional Books 1.0: A 242B token dataset from Harvard Library's collections, refined for accuracy and usability
June 10, 2025
Autoren: Matteo Cargnelutti, Catherine Brobston, John Hess, Jack Cushman, Kristi Mukk, Aristana Scourtas, Kyle Courtney, Greg Leppert, Amanda Watson, Martha Whitehead, Jonathan Zittrain
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) nutzen Daten, um die Welt zu verstehen und dadurch sinnvolle Zusammenhänge und Vorhersagen zu erzeugen. Daher haben die Art, der Umfang, die Qualität und die Vielfalt der Datensätze, die zur Schulung dieser Modelle oder zur Unterstützung ihrer Arbeit während der Inferenz verwendet werden, einen direkten Einfluss auf ihre Qualität. Die rasche Entwicklung und Verbreitung von LLMs unterschiedlicher Qualität hat den Mangel an öffentlich verfügbaren, hochwertigen Trainingsdaten in den Fokus gerückt und die dringende Notwendigkeit aufgezeigt, die Verwaltung dieser Datensätze auf nachhaltige Praktiken mit klaren Provenienzketten zu gründen. Zu diesem Zweck stellt dieser technische Bericht Institutional Books 1.0 vor, eine umfangreiche Sammlung von Büchern aus dem öffentlichen Bereich, die ursprünglich im Rahmen der Beteiligung der Harvard Library am Google Books-Projekt ab 2006 digitalisiert wurden. In Zusammenarbeit mit der Harvard Library haben wir diese Bände extrahiert, analysiert und zu einem umfassend dokumentierten Datensatz historischer Texte verarbeitet. Diese Analyse umfasst die gesamte Sammlung der Harvard Library, die im Rahmen dieses Projekts gescannt wurde und ursprünglich 1.075.899 Bände in über 250 verschiedenen Sprachen mit insgesamt etwa 250 Milliarden Tokens umfasste. Im Rahmen dieser Erstveröffentlichung wurden die OCR-extrahierten Texte (original und nachbearbeitet) sowie die Metadaten (bibliografisch, Quellen- und generierte Metadaten) der 983.004 Bände, oder 242 Milliarden Tokens, die als öffentliches Gut identifiziert wurden, verfügbar gemacht. Dieser Bericht beschreibt die Ziele und Methoden dieses Projekts sowie die Ergebnisse der durchgeführten Analysen, alles im Dienst der besseren Zugänglichkeit und einfacheren Filterung, Lektüre und Nutzung dieser historischen Sammlung für Menschen und Maschinen gleichermaßen.
English
Large language models (LLMs) use data to learn about the world in order to
produce meaningful correlations and predictions. As such, the nature, scale,
quality, and diversity of the datasets used to train these models, or to
support their work at inference time, have a direct impact on their quality.
The rapid development and adoption of LLMs of varying quality has brought into
focus the scarcity of publicly available, high-quality training data and
revealed an urgent need to ground the stewardship of these datasets in
sustainable practices with clear provenance chains. To that end, this technical
report introduces Institutional Books 1.0, a large collection of public domain
books originally digitized through Harvard Library's participation in the
Google Books project, beginning in 2006. Working with Harvard Library, we
extracted, analyzed, and processed these volumes into an extensively-documented
dataset of historic texts. This analysis covers the entirety of Harvard
Library's collection scanned as part of that project, originally spanning
1,075,899 volumes written in over 250 different languages for a total of
approximately 250 billion tokens. As part of this initial release, the
OCR-extracted text (original and post-processed) as well as the metadata
(bibliographic, source, and generated) of the 983,004 volumes, or 242B tokens,
identified as being in the public domain have been made available. This report
describes this project's goals and methods as well as the results of the
analyses we performed, all in service of making this historical collection more
accessible and easier for humans and machines alike to filter, read and use.