ChatPaper.aiChatPaper

OpenDataArena: 学習後データセット価値評価のための公平でオープンなプラットフォーム

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value

December 16, 2025
著者: Mengzhang Cai, Xin Gao, Yu Li, Honglin Lin, Zheng Liu, Zhuoshi Pan, Qizhi Pei, Xiaoran Shang, Mengyuan Sun, Zinan Tang, Xiaoyang Wang, Zhanping Zhong, Yun Zhu, Dahua Lin, Conghui He, Lijun Wu
cs.AI

要旨

大規模言語モデル(LLM)の急速な進化は、学習後データセットの質と多様性に依存している。しかし、根本的な矛盾が存在する:モデル自体は厳密にベンチマーク評価される一方で、それらを駆動するデータは「ブラックボックス」化されたままであり、不透明な構成、不確かな出所、体系的な評価の欠如が特徴である。この不透明さは再現性を妨げ、データ特性とモデル挙動の因果関係を不明瞭にしている。この隔たりを埋めるため、我々は学習後データの本質的価値をベンチマーク評価するための総合的かつオープンなプラットフォーム「OpenDataArena(ODA)」を提案する。ODAは以下の4つの柱から構成される包括的エコシステムを確立する:(i)多様なモデル(Llama、Qwenなど)と領域にわたる公平でオープンな比較を保証する統一トレーニング・評価パイプライン、(ii)数十の異なる軸に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、(iii)データセットの系譜を可視化し構成要素を分析する対話型データ系譜エクスプローラー、(iv)データ研究を促進する完全オープンソースのトレーニング・評価・スコアリングツールキット。大規模な実験(複数領域にわたる120以上の学習データセット、22のベンチマーク、600回以上のトレーニング検証、4,000万以上の処理データポイントを網羅)を通じて、重要な知見が得られた。分析により、データ複雑性とタスク性能の間の本質的トレードオフが明らかになり、系譜追跡を通じて一般的なベンチマークの冗長性が特定され、データセット間の系譜的関係がマッピングされた。すべての結果、ツール、設定を公開し、高品質なデータ評価へのアクセスを民主化する。ODAは単なるリーダーボードの拡張ではなく、試行錯誤的なデータキュレーションから、データ中心AIの原理に基づく科学へとパラダイムシフトを目指す。これにより、データ混合法則や基盤モデルの戦的構成に関する厳密な研究への道を開くものである。
English
The rapid evolution of Large Language Models (LLMs) is predicated on the quality and diversity of post-training datasets. However, a critical dichotomy persists: while models are rigorously benchmarked, the data fueling them remains a black box--characterized by opaque composition, uncertain provenance, and a lack of systematic evaluation. This opacity hinders reproducibility and obscures the causal link between data characteristics and model behaviors. To bridge this gap, we introduce OpenDataArena (ODA), a holistic and open platform designed to benchmark the intrinsic value of post-training data. ODA establishes a comprehensive ecosystem comprising four key pillars: (i) a unified training-evaluation pipeline that ensures fair, open comparisons across diverse models (e.g., Llama, Qwen) and domains; (ii) a multi-dimensional scoring framework that profiles data quality along tens of distinct axes; (iii) an interactive data lineage explorer to visualize dataset genealogy and dissect component sources; and (iv) a fully open-source toolkit for training, evaluation, and scoring to foster data research. Extensive experiments on ODA--covering over 120 training datasets across multiple domains on 22 benchmarks, validated by more than 600 training runs and 40 million processed data points--reveal non-trivial insights. Our analysis uncovers the inherent trade-offs between data complexity and task performance, identifies redundancy in popular benchmarks through lineage tracing, and maps the genealogical relationships across datasets. We release all results, tools, and configurations to democratize access to high-quality data evaluation. Rather than merely expanding a leaderboard, ODA envisions a shift from trial-and-error data curation to a principled science of Data-Centric AI, paving the way for rigorous studies on data mixing laws and the strategic composition of foundation models.
PDF333December 18, 2025