ChatPaper.aiChatPaper

Документации недостаточно: DataRubrics для автоматизированных метрик качества и обеспечения подотчетности

Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability

June 2, 2025
Авторы: Genta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury
cs.AI

Аннотация

Высококачественные наборы данных являются основой для обучения и оценки моделей машинного обучения, однако их создание, особенно с точными аннотациями, выполненными людьми, остается серьезной проблемой. Многие представленные работы по наборам данных часто страдают от недостатка оригинальности, разнообразия или строгого контроля качества, и эти недостатки часто упускаются из виду в процессе рецензирования. В представленных работах также часто отсутствуют важные детали о процессе создания и свойствах наборов данных. Хотя существующие инструменты, такие как datasheets, направлены на повышение прозрачности, они в основном носят описательный характер и не предоставляют стандартизированных, измеримых методов для оценки качества данных. Аналогично, требования к метаданным на конференциях способствуют подотчетности, но применяются непоследовательно. Чтобы устранить эти ограничения, в данной позиционной статье предлагается интеграция систематических, основанных на критериях метрик оценки в процесс рецензирования наборов данных, особенно в условиях растущего числа представлений. Мы также исследуем масштабируемые и экономически эффективные методы генерации синтетических данных, включая специализированные инструменты и подходы с использованием LLM-as-a-judge, для поддержки более эффективной оценки. В качестве призыва к действию мы представляем DataRubrics — структурированную систему для оценки качества как человечески, так и модельно сгенерированных наборов данных. Используя последние достижения в области оценки на основе LLM, DataRubrics предлагает воспроизводимое, масштабируемое и практичное решение для оценки качества наборов данных, позволяя как авторам, так и рецензентам поддерживать более высокие стандарты в исследованиях, ориентированных на данные. Мы также публикуем код для поддержки воспроизводимости оценок на основе LLM по адресу https://github.com/datarubrics/datarubrics.
English
High-quality datasets are fundamental to training and evaluating machine learning models, yet their creation-especially with accurate human annotations-remains a significant challenge. Many dataset paper submissions lack originality, diversity, or rigorous quality control, and these shortcomings are often overlooked during peer review. Submissions also frequently omit essential details about dataset construction and properties. While existing tools such as datasheets aim to promote transparency, they are largely descriptive and do not provide standardized, measurable methods for evaluating data quality. Similarly, metadata requirements at conferences promote accountability but are inconsistently enforced. To address these limitations, this position paper advocates for the integration of systematic, rubric-based evaluation metrics into the dataset review process-particularly as submission volumes continue to grow. We also explore scalable, cost-effective methods for synthetic data generation, including dedicated tools and LLM-as-a-judge approaches, to support more efficient evaluation. As a call to action, we introduce DataRubrics, a structured framework for assessing the quality of both human- and model-generated datasets. Leveraging recent advances in LLM-based evaluation, DataRubrics offers a reproducible, scalable, and actionable solution for dataset quality assessment, enabling both authors and reviewers to uphold higher standards in data-centric research. We also release code to support reproducibility of LLM-based evaluations at https://github.com/datarubrics/datarubrics.
PDF122June 4, 2025