ChatPaper.aiChatPaper

データシートだけでは不十分:自動化された品質指標と説明責任のためのデータルーブリック

Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability

June 2, 2025
著者: Genta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury
cs.AI

要旨

高品質なデータセットは機械学習モデルの訓練と評価において不可欠であるが、特に正確な人間によるアノテーションを伴うその作成は依然として大きな課題である。多くのデータセット論文の投稿は、独創性や多様性、厳格な品質管理を欠いており、これらの欠点は査読プロセスでしばしば見落とされている。また、データセットの構築と特性に関する重要な詳細が頻繁に省略されている。データシートなどの既存のツールは透明性を促進することを目的としているが、これらは主に記述的であり、データ品質を評価するための標準化された測定可能な方法を提供していない。同様に、学会におけるメタデータの要件は責任を促進するが、一貫して強制されていない。これらの制限に対処するため、本ポジションペーパーは、特に投稿数が増え続ける中で、体系的なルーブリックに基づく評価指標をデータセットの査読プロセスに統合することを提唱する。また、専用ツールやLLM-as-a-judgeアプローチを含む、スケーラブルでコスト効率の良い合成データ生成方法を探り、より効率的な評価を支援する。行動を促すために、人間およびモデル生成のデータセットの品質を評価するための構造化されたフレームワークであるDataRubricsを紹介する。LLMベースの評価の最近の進歩を活用し、DataRubricsは再現性があり、スケーラブルで、実行可能なデータセット品質評価ソリューションを提供し、著者と査読者の両方がデータ中心の研究においてより高い基準を維持することを可能にする。また、LLMベースの評価の再現性を支援するコードをhttps://github.com/datarubrics/datarubricsで公開している。
English
High-quality datasets are fundamental to training and evaluating machine learning models, yet their creation-especially with accurate human annotations-remains a significant challenge. Many dataset paper submissions lack originality, diversity, or rigorous quality control, and these shortcomings are often overlooked during peer review. Submissions also frequently omit essential details about dataset construction and properties. While existing tools such as datasheets aim to promote transparency, they are largely descriptive and do not provide standardized, measurable methods for evaluating data quality. Similarly, metadata requirements at conferences promote accountability but are inconsistently enforced. To address these limitations, this position paper advocates for the integration of systematic, rubric-based evaluation metrics into the dataset review process-particularly as submission volumes continue to grow. We also explore scalable, cost-effective methods for synthetic data generation, including dedicated tools and LLM-as-a-judge approaches, to support more efficient evaluation. As a call to action, we introduce DataRubrics, a structured framework for assessing the quality of both human- and model-generated datasets. Leveraging recent advances in LLM-based evaluation, DataRubrics offers a reproducible, scalable, and actionable solution for dataset quality assessment, enabling both authors and reviewers to uphold higher standards in data-centric research. We also release code to support reproducibility of LLM-based evaluations at https://github.com/datarubrics/datarubrics.
PDF142June 4, 2025