OpenDataArena: Een Eerlijk en Open Platform voor het Vergelijken van de Waarde van Post-Training Datasets
OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value
December 16, 2025
Auteurs: Mengzhang Cai, Xin Gao, Yu Li, Honglin Lin, Zheng Liu, Zhuoshi Pan, Qizhi Pei, Xiaoran Shang, Mengyuan Sun, Zinan Tang, Xiaoyang Wang, Zhanping Zhong, Yun Zhu, Dahua Lin, Conghui He, Lijun Wu
cs.AI
Samenvatting
De snelle evolutie van Large Language Models (LLM's) is afhankelijk van de kwaliteit en diversiteit van post-training datasets. Er blijft echter een kritieke tweedeling bestaan: terwijl modellen rigoureus worden gebenchmarkt, blijven de data die ze voeden een black box – gekenmerkt door ondoorzichtige samenstelling, onzekere herkomst en een gebrek aan systematische evaluatie. Deze ondoorzichtigheid belemmert de reproduceerbaarheid en vertroebelt het causale verband tussen data-eigenschappen en modelgedrag. Om deze kloof te overbruggen, introduceren we OpenDataArena (ODA), een holistisch en open platform ontworpen om de intrinsieke waarde van post-training data te benchmarken. ODA creëert een uitgebreid ecosysteem bestaande uit vier pijlers: (i) een uniforme trainings- en evaluatiepijplijn die eerlijke, open vergelijkingen garandeert tussen diverse modellen (bijv. Llama, Qwen) en domeinen; (ii) een multidimensionaal scoringskader dat data-kwaliteit profileert langs tientallen onderscheidende assen; (iii) een interactieve data lineage-verkenner om de stamboom van datasets te visualiseren en bronsamenstellingen te ontleden; en (iv) een volledig open-source toolkit voor training, evaluatie en scoring om data-onderzoek te bevorderen. Uitgebreide experimenten op ODA – met meer dan 120 trainingsdatasets verspreid over meerdere domeinen op 22 benchmarks, gevalideerd door meer dan 600 trainingstrajecten en 40 miljoen verwerkte datapunten – onthullen significante inzichten. Onze analyse legt de inherente afwegingen bloot tussen datacomplexiteit en taakprestaties, identificeert redundantie in populaire benchmarks via stamboomtracering, en brengt de genealogische relaties tussen datasets in kaart. We publiceren alle resultaten, tools en configuraties om toegang tot hoogwaardige data-evaluatie te democratiseren. In plaats van slechts een leaderboard uit te breiden, beoogt ODA een verschuiving van trial-and-error datacuratie naar een principieel onderbouwde wetenschap van Data-Centric AI, waarmee de weg wordt geëffend voor rigoureuze studies naar data-mengwetten en de strategische samenstelling van foundation models.
English
The rapid evolution of Large Language Models (LLMs) is predicated on the quality and diversity of post-training datasets. However, a critical dichotomy persists: while models are rigorously benchmarked, the data fueling them remains a black box--characterized by opaque composition, uncertain provenance, and a lack of systematic evaluation. This opacity hinders reproducibility and obscures the causal link between data characteristics and model behaviors. To bridge this gap, we introduce OpenDataArena (ODA), a holistic and open platform designed to benchmark the intrinsic value of post-training data. ODA establishes a comprehensive ecosystem comprising four key pillars: (i) a unified training-evaluation pipeline that ensures fair, open comparisons across diverse models (e.g., Llama, Qwen) and domains; (ii) a multi-dimensional scoring framework that profiles data quality along tens of distinct axes; (iii) an interactive data lineage explorer to visualize dataset genealogy and dissect component sources; and (iv) a fully open-source toolkit for training, evaluation, and scoring to foster data research. Extensive experiments on ODA--covering over 120 training datasets across multiple domains on 22 benchmarks, validated by more than 600 training runs and 40 million processed data points--reveal non-trivial insights. Our analysis uncovers the inherent trade-offs between data complexity and task performance, identifies redundancy in popular benchmarks through lineage tracing, and maps the genealogical relationships across datasets. We release all results, tools, and configurations to democratize access to high-quality data evaluation. Rather than merely expanding a leaderboard, ODA envisions a shift from trial-and-error data curation to a principled science of Data-Centric AI, paving the way for rigorous studies on data mixing laws and the strategic composition of foundation models.