Datenblätter reichen nicht aus: DataRubrics für automatisierte Qualitätsmetriken und Rechenschaftspflicht
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability
June 2, 2025
Autoren: Genta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury
cs.AI
Zusammenfassung
Hochwertige Datensätze sind grundlegend für das Training und die Bewertung von maschinellen Lernmodellen, doch ihre Erstellung – insbesondere mit präzisen menschlichen Annotationen – bleibt eine erhebliche Herausforderung. Viele Einreichungen von Datensatzpapers mangelt es an Originalität, Vielfalt oder strenger Qualitätskontrolle, und diese Mängel werden oft während des Peer-Review-Prozesses übersehen. Einreichungen lassen zudem häufig wesentliche Details zur Konstruktion und den Eigenschaften der Datensätze aus. Obwohl bestehende Tools wie Datasheets darauf abzielen, Transparenz zu fördern, sind sie weitgehend deskriptiv und bieten keine standardisierten, messbaren Methoden zur Bewertung der Datenqualität. Ebenso fördern Metadatenanforderungen auf Konferenzen die Rechenschaftspflicht, werden jedoch inkonsequent durchgesetzt. Um diese Einschränkungen zu adressieren, plädiert dieses Positionspapier für die Integration systematischer, kriterienbasierter Bewertungsmetriken in den Datensatz-Review-Prozess – insbesondere angesichts der weiter steigenden Einreichungszahlen. Wir untersuchen auch skalierbare, kosteneffiziente Methoden zur synthetischen Datengenerierung, einschließlich spezialisierter Tools und LLM-as-a-Judge-Ansätze, um eine effizientere Bewertung zu unterstützen. Als Aufruf zum Handeln stellen wir DataRubrics vor, ein strukturiertes Framework zur Bewertung der Qualität sowohl menschlich als auch modellgenerierter Datensätze. Durch die Nutzung jüngster Fortschritte in der LLM-basierten Bewertung bietet DataRubrics eine reproduzierbare, skalierbare und umsetzbare Lösung für die Bewertung der Datensatzqualität, die es sowohl Autoren als auch Gutachtern ermöglicht, höhere Standards in der datenzentrierten Forschung einzuhalten. Wir veröffentlichen zudem Code zur Unterstützung der Reproduzierbarkeit von LLM-basierten Bewertungen unter https://github.com/datarubrics/datarubrics.
English
High-quality datasets are fundamental to training and evaluating machine
learning models, yet their creation-especially with accurate human
annotations-remains a significant challenge. Many dataset paper submissions
lack originality, diversity, or rigorous quality control, and these
shortcomings are often overlooked during peer review. Submissions also
frequently omit essential details about dataset construction and properties.
While existing tools such as datasheets aim to promote transparency, they are
largely descriptive and do not provide standardized, measurable methods for
evaluating data quality. Similarly, metadata requirements at conferences
promote accountability but are inconsistently enforced. To address these
limitations, this position paper advocates for the integration of systematic,
rubric-based evaluation metrics into the dataset review process-particularly as
submission volumes continue to grow. We also explore scalable, cost-effective
methods for synthetic data generation, including dedicated tools and
LLM-as-a-judge approaches, to support more efficient evaluation. As a call to
action, we introduce DataRubrics, a structured framework for assessing the
quality of both human- and model-generated datasets. Leveraging recent advances
in LLM-based evaluation, DataRubrics offers a reproducible, scalable, and
actionable solution for dataset quality assessment, enabling both authors and
reviewers to uphold higher standards in data-centric research. We also release
code to support reproducibility of LLM-based evaluations at
https://github.com/datarubrics/datarubrics.