OpenDataArena: Uma Arena Justa e Aberta para a Avaliação Comparativa do Valor de Conjuntos de Dados Pós-Treinamento
OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value
December 16, 2025
Autores: Mengzhang Cai, Xin Gao, Yu Li, Honglin Lin, Zheng Liu, Zhuoshi Pan, Qizhi Pei, Xiaoran Shang, Mengyuan Sun, Zinan Tang, Xiaoyang Wang, Zhanping Zhong, Yun Zhu, Dahua Lin, Conghui He, Lijun Wu
cs.AI
Resumo
A rápida evolução dos Grandes Modelos de Linguagem (LLMs) está condicionada à qualidade e diversidade dos conjuntos de dados de pós-treinamento. No entanto, persiste uma dicotomia crítica: enquanto os modelos são rigorosamente avaliados com benchmarks, os dados que os alimentam permanecem uma caixa preta – caracterizada por composição opaca, proveniência incerta e falta de avaliação sistemática. Esta opacidade dificulta a reprodutibilidade e obscurece a relação causal entre as características dos dados e os comportamentos do modelo. Para colmatar esta lacuna, introduzimos a OpenDataArena (ODA), uma plataforma holística e aberta concebida para avaliar o valor intrínseco dos dados de pós-treinamento. A ODA estabelece um ecossistema abrangente composto por quatro pilares principais: (i) um *pipeline* unificado de treino-avaliação que garante comparações justas e abertas entre diversos modelos (por exemplo, Llama, Qwen) e domínios; (ii) uma estrutura de pontuação multidimensional que perfila a qualidade dos dados ao longo de dezenas de eixos distintos; (iii) um explorador interativo de linhagem de dados para visualizar a genealogia dos conjuntos de dados e dissecar as fontes componentes; e (iv) um conjunto de ferramentas totalmente de código aberto para treino, avaliação e pontuação, para fomentar a investigação em dados. Experiências extensivas na ODA – abrangendo mais de 120 conjuntos de dados de treino em múltiplos domínios, em 22 *benchmarks*, validadas por mais de 600 execuções de treino e 40 milhões de pontos de dados processados – revelam conclusões não triviais. A nossa análise descobre os compromissos inerentes entre a complexidade dos dados e o desempenho da tarefa, identifica redundâncias em *benchmarks* populares através do rastreio de linhagem e mapeia as relações genealógicas entre conjuntos de dados. Disponibilizamos todos os resultados, ferramentas e configurações para democratizar o acesso à avaliação de dados de alta qualidade. Em vez de meramente expandir um quadro de líderes, a ODA vislumbra uma mudança da curadoria de dados por tentativa e erro para uma ciência fundamentada de *Data-Centric AI*, pavimentando o caminho para estudos rigorosos sobre as leis de mistura de dados e a composição estratégica de modelos de base.
English
The rapid evolution of Large Language Models (LLMs) is predicated on the quality and diversity of post-training datasets. However, a critical dichotomy persists: while models are rigorously benchmarked, the data fueling them remains a black box--characterized by opaque composition, uncertain provenance, and a lack of systematic evaluation. This opacity hinders reproducibility and obscures the causal link between data characteristics and model behaviors. To bridge this gap, we introduce OpenDataArena (ODA), a holistic and open platform designed to benchmark the intrinsic value of post-training data. ODA establishes a comprehensive ecosystem comprising four key pillars: (i) a unified training-evaluation pipeline that ensures fair, open comparisons across diverse models (e.g., Llama, Qwen) and domains; (ii) a multi-dimensional scoring framework that profiles data quality along tens of distinct axes; (iii) an interactive data lineage explorer to visualize dataset genealogy and dissect component sources; and (iv) a fully open-source toolkit for training, evaluation, and scoring to foster data research. Extensive experiments on ODA--covering over 120 training datasets across multiple domains on 22 benchmarks, validated by more than 600 training runs and 40 million processed data points--reveal non-trivial insights. Our analysis uncovers the inherent trade-offs between data complexity and task performance, identifies redundancy in popular benchmarks through lineage tracing, and maps the genealogical relationships across datasets. We release all results, tools, and configurations to democratize access to high-quality data evaluation. Rather than merely expanding a leaderboard, ODA envisions a shift from trial-and-error data curation to a principled science of Data-Centric AI, paving the way for rigorous studies on data mixing laws and the strategic composition of foundation models.