Las hojas de datos no son suficientes: Rúbricas de datos para métricas de calidad automatizadas y rendición de cuentas
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability
June 2, 2025
Autores: Genta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury
cs.AI
Resumen
Los conjuntos de datos de alta calidad son fundamentales para entrenar y evaluar modelos de aprendizaje automático, sin embargo, su creación—especialmente con anotaciones humanas precisas—sigue siendo un desafío significativo. Muchas propuestas de artículos sobre conjuntos de datos carecen de originalidad, diversidad o un control de calidad riguroso, y estas deficiencias a menudo se pasan por alto durante la revisión por pares. Las propuestas también omiten frecuentemente detalles esenciales sobre la construcción y las propiedades de los conjuntos de datos. Si bien herramientas existentes, como las hojas de datos, buscan promover la transparencia, son en gran medida descriptivas y no proporcionan métodos estandarizados y medibles para evaluar la calidad de los datos. De manera similar, los requisitos de metadatos en conferencias fomentan la responsabilidad, pero se aplican de manera inconsistente. Para abordar estas limitaciones, este documento de posición aboga por la integración de métricas de evaluación sistemáticas basadas en rúbricas en el proceso de revisión de conjuntos de datos—especialmente a medida que el volumen de propuestas sigue creciendo. También exploramos métodos escalables y rentables para la generación de datos sintéticos, incluyendo herramientas dedicadas y enfoques de LLM-como-juez, para apoyar una evaluación más eficiente. Como un llamado a la acción, presentamos DataRubrics, un marco estructurado para evaluar la calidad de conjuntos de datos generados tanto por humanos como por modelos. Aprovechando los avances recientes en la evaluación basada en LLM, DataRubrics ofrece una solución reproducible, escalable y accionable para la evaluación de la calidad de los conjuntos de datos, permitiendo tanto a los autores como a los revisores mantener estándares más altos en la investigación centrada en datos. También publicamos código para apoyar la reproducibilidad de las evaluaciones basadas en LLM en https://github.com/datarubrics/datarubrics.
English
High-quality datasets are fundamental to training and evaluating machine
learning models, yet their creation-especially with accurate human
annotations-remains a significant challenge. Many dataset paper submissions
lack originality, diversity, or rigorous quality control, and these
shortcomings are often overlooked during peer review. Submissions also
frequently omit essential details about dataset construction and properties.
While existing tools such as datasheets aim to promote transparency, they are
largely descriptive and do not provide standardized, measurable methods for
evaluating data quality. Similarly, metadata requirements at conferences
promote accountability but are inconsistently enforced. To address these
limitations, this position paper advocates for the integration of systematic,
rubric-based evaluation metrics into the dataset review process-particularly as
submission volumes continue to grow. We also explore scalable, cost-effective
methods for synthetic data generation, including dedicated tools and
LLM-as-a-judge approaches, to support more efficient evaluation. As a call to
action, we introduce DataRubrics, a structured framework for assessing the
quality of both human- and model-generated datasets. Leveraging recent advances
in LLM-based evaluation, DataRubrics offers a reproducible, scalable, and
actionable solution for dataset quality assessment, enabling both authors and
reviewers to uphold higher standards in data-centric research. We also release
code to support reproducibility of LLM-based evaluations at
https://github.com/datarubrics/datarubrics.