ChatPaper.aiChatPaper

Le schede tecniche non bastano: DataRubrics per metriche di qualità automatizzate e responsabilità

Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability

June 2, 2025
Autori: Genta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury
cs.AI

Abstract

Dataset di alta qualità sono fondamentali per l'addestramento e la valutazione di modelli di machine learning, ma la loro creazione—specialmente con annotazioni umane accurate—rimane una sfida significativa. Molte proposte di articoli su dataset mancano di originalità, diversità o controlli rigorosi sulla qualità, e queste carenze sono spesso trascurate durante la revisione tra pari. Le proposte inoltre omettono frequentemente dettagli essenziali sulla costruzione e le proprietà dei dataset. Sebbene strumenti esistenti come le datasheet mirino a promuovere la trasparenza, sono principalmente descrittivi e non forniscono metodi standardizzati e misurabili per valutare la qualità dei dati. Allo stesso modo, i requisiti di metadata nelle conferenze promuovono la responsabilità, ma sono applicati in modo incoerente. Per affrontare queste limitazioni, questo position paper sostiene l'integrazione di metriche di valutazione sistematiche e basate su rubriche nel processo di revisione dei dataset—specialmente considerando che i volumi di proposte continuano a crescere. Esploriamo inoltre metodi scalabili e convenienti per la generazione di dati sintetici, inclusi strumenti dedicati e approcci LLM-as-a-judge, per supportare una valutazione più efficiente. Come invito all'azione, introduciamo DataRubrics, un framework strutturato per valutare la qualità di dataset sia generati da umani che da modelli. Sfruttando i recenti progressi nella valutazione basata su LLM, DataRubrics offre una soluzione riproducibile, scalabile e azionabile per la valutazione della qualità dei dataset, consentendo sia agli autori che ai revisori di mantenere standard più elevati nella ricerca incentrata sui dati. Rilasciamo inoltre codice per supportare la riproducibilità delle valutazioni basate su LLM all'indirizzo https://github.com/datarubrics/datarubrics.
English
High-quality datasets are fundamental to training and evaluating machine learning models, yet their creation-especially with accurate human annotations-remains a significant challenge. Many dataset paper submissions lack originality, diversity, or rigorous quality control, and these shortcomings are often overlooked during peer review. Submissions also frequently omit essential details about dataset construction and properties. While existing tools such as datasheets aim to promote transparency, they are largely descriptive and do not provide standardized, measurable methods for evaluating data quality. Similarly, metadata requirements at conferences promote accountability but are inconsistently enforced. To address these limitations, this position paper advocates for the integration of systematic, rubric-based evaluation metrics into the dataset review process-particularly as submission volumes continue to grow. We also explore scalable, cost-effective methods for synthetic data generation, including dedicated tools and LLM-as-a-judge approaches, to support more efficient evaluation. As a call to action, we introduce DataRubrics, a structured framework for assessing the quality of both human- and model-generated datasets. Leveraging recent advances in LLM-based evaluation, DataRubrics offers a reproducible, scalable, and actionable solution for dataset quality assessment, enabling both authors and reviewers to uphold higher standards in data-centric research. We also release code to support reproducibility of LLM-based evaluations at https://github.com/datarubrics/datarubrics.
PDF142June 4, 2025