ChatPaper.aiChatPaper

OpenDataArena: Справедливая и открытая площадка для оценки ценности наборов данных после обучения

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value

December 16, 2025
Авторы: Mengzhang Cai, Xin Gao, Yu Li, Honglin Lin, Zheng Liu, Zhuoshi Pan, Qizhi Pei, Xiaoran Shang, Mengyuan Sun, Zinan Tang, Xiaoyang Wang, Zhanping Zhong, Yun Zhu, Dahua Lin, Conghui He, Lijun Wu
cs.AI

Аннотация

Быстрая эволюция больших языковых моделей (LLM) основывается на качестве и разнообразии данных после обучения. Однако сохраняется ключевая дихотомия: в то время как модели проходят тщательное бенчмаркирование, данные, которые их питают, остаются «чёрным ящиком» — им свойственны непрозрачный состав, неясное происхождение и отсутствие систематической оценки. Эта непрозрачность препятствует воспроизводимости и скрывает причинно-следственную связь между характеристиками данных и поведением моделей. Чтобы устранить этот разрыв, мы представляем OpenDataArena (ODA) — целостную открытую платформу, предназначенную для оценки внутренней ценности данных пост-обучения. ODA создает комплексную экосистему, включающую четыре ключевых компонента: (i) унифицированный конвейер обучения-оценки, обеспечивающий честные и открытые сравнения для различных моделей (например, Llama, Qwen) и предметных областей; (ii) многомерную систему оценки, которая характеризует качество данных по десяткам различных параметров; (iii) интерактивный инструмент для визуализации происхождения данных, позволяющий отслеживать генеалогию наборов данных и анализировать их составные источники; и (iv) полностью открытый инструментарий для обучения, оценки и подсчета баллов, способствующий исследованиям данных. Масштабные эксперименты на ODA — охватившие более 120 обучающих наборов данных из различных областей на 22 бенчмарках, проверенные в ходе более 600 прогонов обучения и обработки 40 миллионов точек данных — выявили нетривиальные закономерности. Наш анализ раскрывает неизбежные компромиссы между сложностью данных и производительностью модели, выявляет избыточность в популярных бенчмарках с помощью трассировки происхождения и отображает генеалогические связи между наборами данных. Мы публикуем все результаты, инструменты и конфигурации, чтобы демократизировать доступ к качественной оценке данных. Вместо простого расширения таблицы лидеров ODA стремится к переходу от кураторства данных методом проб и ошибок к принципиальной науке о Data-Centric AI, прокладывая путь для строгих исследований законов смешения данных и стратегического состава базовых моделей.
English
The rapid evolution of Large Language Models (LLMs) is predicated on the quality and diversity of post-training datasets. However, a critical dichotomy persists: while models are rigorously benchmarked, the data fueling them remains a black box--characterized by opaque composition, uncertain provenance, and a lack of systematic evaluation. This opacity hinders reproducibility and obscures the causal link between data characteristics and model behaviors. To bridge this gap, we introduce OpenDataArena (ODA), a holistic and open platform designed to benchmark the intrinsic value of post-training data. ODA establishes a comprehensive ecosystem comprising four key pillars: (i) a unified training-evaluation pipeline that ensures fair, open comparisons across diverse models (e.g., Llama, Qwen) and domains; (ii) a multi-dimensional scoring framework that profiles data quality along tens of distinct axes; (iii) an interactive data lineage explorer to visualize dataset genealogy and dissect component sources; and (iv) a fully open-source toolkit for training, evaluation, and scoring to foster data research. Extensive experiments on ODA--covering over 120 training datasets across multiple domains on 22 benchmarks, validated by more than 600 training runs and 40 million processed data points--reveal non-trivial insights. Our analysis uncovers the inherent trade-offs between data complexity and task performance, identifies redundancy in popular benchmarks through lineage tracing, and maps the genealogical relationships across datasets. We release all results, tools, and configurations to democratize access to high-quality data evaluation. Rather than merely expanding a leaderboard, ODA envisions a shift from trial-and-error data curation to a principled science of Data-Centric AI, paving the way for rigorous studies on data mixing laws and the strategic composition of foundation models.
PDF333December 18, 2025