Folhas de Dados Não São Suficientes: Rubricas de Dados para Métricas Automatizadas de Qualidade e Responsabilidade
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability
June 2, 2025
Autores: Genta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury
cs.AI
Resumo
Conjuntos de dados de alta qualidade são fundamentais para o treinamento e avaliação de modelos de aprendizado de máquina, mas sua criação — especialmente com anotações humanas precisas — continua sendo um desafio significativo. Muitas submissões de artigos sobre conjuntos de dados carecem de originalidade, diversidade ou controle de qualidade rigoroso, e essas deficiências são frequentemente negligenciadas durante a revisão por pares. As submissões também frequentemente omitem detalhes essenciais sobre a construção e as propriedades dos conjuntos de dados. Embora ferramentas existentes, como as "datasheets", visem promover a transparência, elas são em grande parte descritivas e não fornecem métodos padronizados e mensuráveis para avaliar a qualidade dos dados. Da mesma forma, os requisitos de metadados em conferências promovem a responsabilidade, mas são aplicados de forma inconsistente. Para abordar essas limitações, este artigo de posicionamento defende a integração de métricas de avaliação sistemáticas e baseadas em rubricas no processo de revisão de conjuntos de dados — especialmente à medida que os volumes de submissões continuam a crescer. Também exploramos métodos escaláveis e econômicos para a geração de dados sintéticos, incluindo ferramentas dedicadas e abordagens de "LLM como juiz", para apoiar uma avaliação mais eficiente. Como um chamado à ação, introduzimos o DataRubrics, uma estrutura estruturada para avaliar a qualidade de conjuntos de dados gerados por humanos e por modelos. Aproveitando os avanços recentes na avaliação baseada em LLMs, o DataRubrics oferece uma solução reproduzível, escalável e acionável para a avaliação da qualidade de conjuntos de dados, permitindo que autores e revisores mantenham padrões mais elevados em pesquisas centradas em dados. Também disponibilizamos código para apoiar a reprodutibilidade das avaliações baseadas em LLMs em https://github.com/datarubrics/datarubrics.
English
High-quality datasets are fundamental to training and evaluating machine
learning models, yet their creation-especially with accurate human
annotations-remains a significant challenge. Many dataset paper submissions
lack originality, diversity, or rigorous quality control, and these
shortcomings are often overlooked during peer review. Submissions also
frequently omit essential details about dataset construction and properties.
While existing tools such as datasheets aim to promote transparency, they are
largely descriptive and do not provide standardized, measurable methods for
evaluating data quality. Similarly, metadata requirements at conferences
promote accountability but are inconsistently enforced. To address these
limitations, this position paper advocates for the integration of systematic,
rubric-based evaluation metrics into the dataset review process-particularly as
submission volumes continue to grow. We also explore scalable, cost-effective
methods for synthetic data generation, including dedicated tools and
LLM-as-a-judge approaches, to support more efficient evaluation. As a call to
action, we introduce DataRubrics, a structured framework for assessing the
quality of both human- and model-generated datasets. Leveraging recent advances
in LLM-based evaluation, DataRubrics offers a reproducible, scalable, and
actionable solution for dataset quality assessment, enabling both authors and
reviewers to uphold higher standards in data-centric research. We also release
code to support reproducibility of LLM-based evaluations at
https://github.com/datarubrics/datarubrics.