OpenDataArena : Une arène équitable et ouverte pour l'évaluation de la valeur des ensembles de données en post-formation
OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value
December 16, 2025
papers.authors: Mengzhang Cai, Xin Gao, Yu Li, Honglin Lin, Zheng Liu, Zhuoshi Pan, Qizhi Pei, Xiaoran Shang, Mengyuan Sun, Zinan Tang, Xiaoyang Wang, Zhanping Zhong, Yun Zhu, Dahua Lin, Conghui He, Lijun Wu
cs.AI
papers.abstract
L'évolution rapide des modèles de langage de grande taille (LLM) repose sur la qualité et la diversité des ensembles de données post-entraînement. Cependant, une dichotomie critique persiste : si les modèles sont rigoureusement évalués par des benchmarks, les données qui les alimentent restent une boîte noire, caractérisée par une composition opaque, une provenance incertaine et un manque d'évaluation systématique. Cette opacité entrave la reproductibilité et obscurcit le lien de causalité entre les caractéristiques des données et les comportements des modèles. Pour combler cette lacune, nous présentons OpenDataArena (ODA), une plateforme holistique et ouverte conçue pour évaluer la valeur intrinsèque des données post-entraînement. ODA établit un écosystème complet comprenant quatre piliers essentiels : (i) un pipeline unifié d'entraînement-évaluation qui garantit des comparaisons équitables et ouvertes entre divers modèles (par exemple, Llama, Qwen) et domaines ; (ii) un cadre de notation multidimensionnel qui profile la qualité des données selon des dizaines d'axes distincts ; (iii) un explorateur interactif de lignée de données pour visualiser la généalogie des ensembles de données et disséquer les sources des composants ; et (iv) une boîte à outils entièrement open-source pour l'entraînement, l'évaluation et la notation afin de favoriser la recherche sur les données. Des expériences approfondies sur ODA – couvrant plus de 120 ensembles de données d'entraînement dans de multiples domaines sur 22 benchmarks, validées par plus de 600 cycles d'entraînement et 40 millions de points de données traités – révèlent des insights non triviaux. Notre analyse met en lumière les compromis inhérents entre la complexité des données et les performances des tâches, identifie la redondance dans les benchmarks populaires via le traçage de la lignée, et cartographie les relations généalogiques entre les ensembles de données. Nous publions tous les résultats, outils et configurations pour démocratiser l'accès à l'évaluation de données de haute qualité. Plutôt que de simplement étendre un classement, ODA envisage un changement d'une curation de données par essais et erreurs vers une science fondée de l'IA axée sur les données (Data-Centric AI), ouvrant la voie à des études rigoureuses sur les lois de mélange des données et la composition stratégique des modèles de base.
English
The rapid evolution of Large Language Models (LLMs) is predicated on the quality and diversity of post-training datasets. However, a critical dichotomy persists: while models are rigorously benchmarked, the data fueling them remains a black box--characterized by opaque composition, uncertain provenance, and a lack of systematic evaluation. This opacity hinders reproducibility and obscures the causal link between data characteristics and model behaviors. To bridge this gap, we introduce OpenDataArena (ODA), a holistic and open platform designed to benchmark the intrinsic value of post-training data. ODA establishes a comprehensive ecosystem comprising four key pillars: (i) a unified training-evaluation pipeline that ensures fair, open comparisons across diverse models (e.g., Llama, Qwen) and domains; (ii) a multi-dimensional scoring framework that profiles data quality along tens of distinct axes; (iii) an interactive data lineage explorer to visualize dataset genealogy and dissect component sources; and (iv) a fully open-source toolkit for training, evaluation, and scoring to foster data research. Extensive experiments on ODA--covering over 120 training datasets across multiple domains on 22 benchmarks, validated by more than 600 training runs and 40 million processed data points--reveal non-trivial insights. Our analysis uncovers the inherent trade-offs between data complexity and task performance, identifies redundancy in popular benchmarks through lineage tracing, and maps the genealogical relationships across datasets. We release all results, tools, and configurations to democratize access to high-quality data evaluation. Rather than merely expanding a leaderboard, ODA envisions a shift from trial-and-error data curation to a principled science of Data-Centric AI, paving the way for rigorous studies on data mixing laws and the strategic composition of foundation models.