데이터시트만으로는 부족하다: 자동화된 품질 지표와 책무성을 위한 데이터 루브릭
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability
June 2, 2025
저자: Genta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury
cs.AI
초록
고품질 데이터셋은 머신러닝 모델의 훈련과 평가에 필수적이지만, 특히 정확한 인간 주석이 포함된 데이터셋의 생성은 여전히 큰 과제로 남아 있습니다. 많은 데이터셋 논문 제출물은 독창성, 다양성 또는 엄격한 품질 관리가 부족하며, 이러한 결함은 동료 검토 과정에서 종종 간과됩니다. 또한 제출물은 데이터셋 구성과 속성에 대한 필수적인 세부 사항을 빈번히 누락합니다. 데이터시트와 같은 기존 도구들은 투명성을 촉진하기 위해 노력하지만, 이들은 주로 설명적이며 데이터 품질을 평가하기 위한 표준화되고 측정 가능한 방법을 제공하지 않습니다. 마찬가지로, 학회의 메타데이터 요구사항은 책임성을 촉진하지만 일관되게 시행되지는 않습니다. 이러한 한계를 해결하기 위해, 본 포지션 논문은 특히 제출량이 계속 증가함에 따라 데이터셋 검토 과정에 체계적이고 루브릭 기반의 평가 지표를 통합할 것을 주장합니다. 또한, 우리는 전용 도구와 LLM-as-a-judge 접근법을 포함한 확장 가능하고 비용 효율적인 합성 데이터 생성 방법을 탐구하여 보다 효율적인 평가를 지원합니다. 행동 촉구로서, 우리는 인간 및 모델 생성 데이터셋의 품질을 평가하기 위한 구조화된 프레임워크인 DataRubrics를 소개합니다. 최근의 LLM 기반 평가 기술을 활용한 DataRubrics는 재현 가능하고 확장 가능하며 실행 가능한 데이터셋 품질 평가 솔루션을 제공하여, 저자와 검토자 모두가 데이터 중심 연구에서 더 높은 기준을 유지할 수 있도록 합니다. 또한, 우리는 LLM 기반 평가의 재현성을 지원하기 위해 코드를 https://github.com/datarubrics/datarubrics에서 공개합니다.
English
High-quality datasets are fundamental to training and evaluating machine
learning models, yet their creation-especially with accurate human
annotations-remains a significant challenge. Many dataset paper submissions
lack originality, diversity, or rigorous quality control, and these
shortcomings are often overlooked during peer review. Submissions also
frequently omit essential details about dataset construction and properties.
While existing tools such as datasheets aim to promote transparency, they are
largely descriptive and do not provide standardized, measurable methods for
evaluating data quality. Similarly, metadata requirements at conferences
promote accountability but are inconsistently enforced. To address these
limitations, this position paper advocates for the integration of systematic,
rubric-based evaluation metrics into the dataset review process-particularly as
submission volumes continue to grow. We also explore scalable, cost-effective
methods for synthetic data generation, including dedicated tools and
LLM-as-a-judge approaches, to support more efficient evaluation. As a call to
action, we introduce DataRubrics, a structured framework for assessing the
quality of both human- and model-generated datasets. Leveraging recent advances
in LLM-based evaluation, DataRubrics offers a reproducible, scalable, and
actionable solution for dataset quality assessment, enabling both authors and
reviewers to uphold higher standards in data-centric research. We also release
code to support reproducibility of LLM-based evaluations at
https://github.com/datarubrics/datarubrics.