Datasheets zijn niet voldoende: DataRubrics voor geautomatiseerde kwaliteitsmetingen en verantwoording

Samenvatting

Hoogwaardige datasets zijn essentieel voor het trainen en evalueren van machine learning-modellen, maar het creëren ervan – vooral met nauwkeurige menselijke annotaties – blijft een aanzienlijke uitdaging. Veel inzendingen van dataset-artikelen missen originaliteit, diversiteit of rigoureuze kwaliteitscontrole, en deze tekortkomingen worden vaak over het hoofd gezien tijdens de peer review. Inzendingen laten ook regelmatig essentiële details over de constructie en eigenschappen van datasets achterwege. Hoewel bestaande tools zoals datasheets transparantie bevorderen, zijn ze grotendeels beschrijvend en bieden ze geen gestandaardiseerde, meetbare methoden voor het evalueren van data kwaliteit. Evenzo bevorderen metadata-eisen op conferenties verantwoording, maar worden ze inconsistent gehandhaafd. Om deze beperkingen aan te pakken, pleit dit position paper voor de integratie van systematische, rubric-gebaseerde evaluatiemetrics in het dataset-reviewproces – vooral omdat het aantal inzendingen blijft groeien. We onderzoeken ook schaalbare, kosteneffectieve methoden voor synthetische datageneratie, waaronder toegewijde tools en LLM-as-a-judge benaderingen, om efficiëntere evaluatie te ondersteunen. Als oproep tot actie introduceren we DataRubrics, een gestructureerd raamwerk voor het beoordelen van de kwaliteit van zowel door mensen als door modellen gegenereerde datasets. Gebruikmakend van recente vooruitgang in LLM-gebaseerde evaluatie, biedt DataRubrics een reproduceerbare, schaalbare en actiegerichte oplossing voor datasetkwaliteitsbeoordeling, waardoor zowel auteurs als reviewers hogere standaarden kunnen handhaven in data-gericht onderzoek. We geven ook code vrij om de reproduceerbaarheid van LLM-gebaseerde evaluaties te ondersteunen op https://github.com/datarubrics/datarubrics.

English

High-quality datasets are fundamental to training and evaluating machine learning models, yet their creation-especially with accurate human annotations-remains a significant challenge. Many dataset paper submissions lack originality, diversity, or rigorous quality control, and these shortcomings are often overlooked during peer review. Submissions also frequently omit essential details about dataset construction and properties. While existing tools such as datasheets aim to promote transparency, they are largely descriptive and do not provide standardized, measurable methods for evaluating data quality. Similarly, metadata requirements at conferences promote accountability but are inconsistently enforced. To address these limitations, this position paper advocates for the integration of systematic, rubric-based evaluation metrics into the dataset review process-particularly as submission volumes continue to grow. We also explore scalable, cost-effective methods for synthetic data generation, including dedicated tools and LLM-as-a-judge approaches, to support more efficient evaluation. As a call to action, we introduce DataRubrics, a structured framework for assessing the quality of both human- and model-generated datasets. Leveraging recent advances in LLM-based evaluation, DataRubrics offers a reproducible, scalable, and actionable solution for dataset quality assessment, enabling both authors and reviewers to uphold higher standards in data-centric research. We also release code to support reproducibility of LLM-based evaluations at https://github.com/datarubrics/datarubrics.

Datasheets zijn niet voldoende: DataRubrics voor geautomatiseerde kwaliteitsmetingen en verantwoording

Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability

Samenvatting

Support