ChatPaper.aiChatPaper

OpenDataArena: Un'Arena Equa e Aperta per il Benchmarking del Valore dei Dati Post-Addestramento

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value

December 16, 2025
Autori: Mengzhang Cai, Xin Gao, Yu Li, Honglin Lin, Zheng Liu, Zhuoshi Pan, Qizhi Pei, Xiaoran Shang, Mengyuan Sun, Zinan Tang, Xiaoyang Wang, Zhanping Zhong, Yun Zhu, Dahua Lin, Conghui He, Lijun Wu
cs.AI

Abstract

La rapida evoluzione dei Large Language Model (LLM) è basata sulla qualità e diversità dei dataset di post-training. Tuttavia, persiste una dicotomia critica: mentre i modelli vengono sottoposti a benchmarking rigoroso, i dati che li alimentano rimangono una scatola nera, caratterizzata da composizione opaca, provenienza incerta e mancanza di valutazione sistematica. Questa opacità ostacola la riproducibilità e oscura il nesso causale tra le caratteristiche dei dati e i comportamenti del modello. Per colmare questa lacuna, presentiamo OpenDataArena (ODA), una piattaforma olistica e aperta progettata per valutare il valore intrinseco dei dati di post-training. ODA stabilisce un ecosistema completo che comprende quattro pilastri chiave: (i) una pipeline unificata di addestramento-valutazione che garantisce confronti equi e aperti tra diversi modelli (ad es. Llama, Qwen) e domini; (ii) un framework di valutazione multidimensionale che profila la qualità dei dati lungo decine di assi distinti; (iii) un esploratore interattivo della lineage dei dati per visualizzare la genealogia dei dataset e analizzare le fonti componenti; e (iv) un toolkit completamente open-source per addestramento, valutazione e scoring per promuovere la ricerca sui dati. Esperimenti estensivi su ODA – che coprono oltre 120 dataset di addestramento in più domini su 22 benchmark, validati da più di 600 esecuzioni di training e 40 milioni di punti dati processati – rivelano intuizioni non banali. La nostra analisi scopre i compromessi intrinseci tra complessità dei dati e prestazioni del task, identifica la ridondanza in benchmark popolari tramite tracciamento della lineage, e mappa le relazioni genealogiche tra i dataset. Rilasciamo tutti i risultati, gli strumenti e le configurazioni per democratizzare l'accesso alla valutazione di dati di alta qualità. Più che semplicemente espandere una classifica, ODA prefigura un cambiamento dalla cura dei dati per tentativi ed errori verso una scienza principiata della Data-Centric AI, spianando la strada a studi rigorosi sulle leggi di miscelazione dei dati e sulla composizione strategica dei modelli foundation.
English
The rapid evolution of Large Language Models (LLMs) is predicated on the quality and diversity of post-training datasets. However, a critical dichotomy persists: while models are rigorously benchmarked, the data fueling them remains a black box--characterized by opaque composition, uncertain provenance, and a lack of systematic evaluation. This opacity hinders reproducibility and obscures the causal link between data characteristics and model behaviors. To bridge this gap, we introduce OpenDataArena (ODA), a holistic and open platform designed to benchmark the intrinsic value of post-training data. ODA establishes a comprehensive ecosystem comprising four key pillars: (i) a unified training-evaluation pipeline that ensures fair, open comparisons across diverse models (e.g., Llama, Qwen) and domains; (ii) a multi-dimensional scoring framework that profiles data quality along tens of distinct axes; (iii) an interactive data lineage explorer to visualize dataset genealogy and dissect component sources; and (iv) a fully open-source toolkit for training, evaluation, and scoring to foster data research. Extensive experiments on ODA--covering over 120 training datasets across multiple domains on 22 benchmarks, validated by more than 600 training runs and 40 million processed data points--reveal non-trivial insights. Our analysis uncovers the inherent trade-offs between data complexity and task performance, identifies redundancy in popular benchmarks through lineage tracing, and maps the genealogical relationships across datasets. We release all results, tools, and configurations to democratize access to high-quality data evaluation. Rather than merely expanding a leaderboard, ODA envisions a shift from trial-and-error data curation to a principled science of Data-Centric AI, paving the way for rigorous studies on data mixing laws and the strategic composition of foundation models.
PDF333December 18, 2025