Les fiches techniques ne suffisent pas : les DataRubrics pour des métriques de qualité automatisées et une responsabilisation accrue
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability
June 2, 2025
Auteurs: Genta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury
cs.AI
Résumé
Les ensembles de données de haute qualité sont fondamentaux pour l'entraînement et l'évaluation des modèles d'apprentissage automatique, mais leur création—en particulier avec des annotations humaines précises—reste un défi majeur. De nombreuses soumissions d'articles sur les ensembles de données manquent d'originalité, de diversité ou de contrôle qualité rigoureux, et ces lacunes sont souvent négligées lors de l'examen par les pairs. Les soumissions omettent également fréquemment des détails essentiels sur la construction et les propriétés des ensembles de données. Bien que des outils existants tels que les fiches techniques visent à promouvoir la transparence, ils sont largement descriptifs et ne fournissent pas de méthodes standardisées et mesurables pour évaluer la qualité des données. De même, les exigences en matière de métadonnées lors des conférences favorisent la responsabilité, mais sont appliquées de manière incohérente. Pour remédier à ces limitations, cet article de position plaide pour l'intégration de métriques d'évaluation systématiques et basées sur des grilles dans le processus d'examen des ensembles de données—en particulier à mesure que les volumes de soumissions continuent d'augmenter. Nous explorons également des méthodes évolutives et rentables pour la génération de données synthétiques, y compris des outils dédiés et des approches utilisant des LLM comme juges, afin de soutenir une évaluation plus efficace. En tant qu'appel à l'action, nous introduisons DataRubrics, un cadre structuré pour évaluer la qualité des ensembles de données générés par des humains et des modèles. Tirant parti des avancées récentes dans l'évaluation basée sur les LLM, DataRubrics offre une solution reproductible, évolutive et actionnable pour l'évaluation de la qualité des ensembles de données, permettant aux auteurs et aux examinateurs de maintenir des normes plus élevées dans la recherche centrée sur les données. Nous publions également du code pour soutenir la reproductibilité des évaluations basées sur les LLM à l'adresse https://github.com/datarubrics/datarubrics.
English
High-quality datasets are fundamental to training and evaluating machine
learning models, yet their creation-especially with accurate human
annotations-remains a significant challenge. Many dataset paper submissions
lack originality, diversity, or rigorous quality control, and these
shortcomings are often overlooked during peer review. Submissions also
frequently omit essential details about dataset construction and properties.
While existing tools such as datasheets aim to promote transparency, they are
largely descriptive and do not provide standardized, measurable methods for
evaluating data quality. Similarly, metadata requirements at conferences
promote accountability but are inconsistently enforced. To address these
limitations, this position paper advocates for the integration of systematic,
rubric-based evaluation metrics into the dataset review process-particularly as
submission volumes continue to grow. We also explore scalable, cost-effective
methods for synthetic data generation, including dedicated tools and
LLM-as-a-judge approaches, to support more efficient evaluation. As a call to
action, we introduce DataRubrics, a structured framework for assessing the
quality of both human- and model-generated datasets. Leveraging recent advances
in LLM-based evaluation, DataRubrics offers a reproducible, scalable, and
actionable solution for dataset quality assessment, enabling both authors and
reviewers to uphold higher standards in data-centric research. We also release
code to support reproducibility of LLM-based evaluations at
https://github.com/datarubrics/datarubrics.