ChatPaper.aiChatPaper

OpenDataArena: Un Espacio Justo y Abierto para la Evaluación Comparativa del Valor de los Datos Post-Entrenamiento

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value

December 16, 2025
Autores: Mengzhang Cai, Xin Gao, Yu Li, Honglin Lin, Zheng Liu, Zhuoshi Pan, Qizhi Pei, Xiaoran Shang, Mengyuan Sun, Zinan Tang, Xiaoyang Wang, Zhanping Zhong, Yun Zhu, Dahua Lin, Conghui He, Lijun Wu
cs.AI

Resumen

La rápida evolución de los Modelos de Lenguaje a Gran Escala (LLMs) depende de la calidad y diversidad de los conjuntos de datos de post-entrenamiento. Sin embargo, persiste una dicotomía crítica: mientras que los modelos son rigurosamente evaluados comparativamente, los datos que los alimentan permanecen como una caja negra, caracterizada por una composición opaca, una procedencia incierta y una falta de evaluación sistemática. Esta opacidad dificulta la reproducibilidad y oscurece el vínculo causal entre las características de los datos y los comportamientos del modelo. Para cerrar esta brecha, presentamos OpenDataArena (ODA), una plataforma holística y abierta diseñada para evaluar el valor intrínseco de los datos de post-entrenamiento. ODA establece un ecosistema integral que comprende cuatro pilares clave: (i) una canalización unificada de entrenamiento-evaluación que garantiza comparaciones justas y abiertas entre diversos modelos (por ejemplo, Llama, Qwen) y dominios; (ii) un marco de puntuación multidimensional que perfila la calidad de los datos a lo largo de decenas de ejes distintos; (iii) un explorador interactivo de linaje de datos para visualizar la genealogía de los conjuntos de datos y diseccionar las fuentes componentes; y (iv) un kit de herramientas completamente de código abierto para entrenamiento, evaluación y puntuación, con el fin de fomentar la investigación de datos. Experimentos exhaustivos en ODA—que abarcan más de 120 conjuntos de datos de entrenamiento en múltiples dominios sobre 22 puntos de referencia, validados por más de 600 ejecuciones de entrenamiento y 40 millones de puntos de datos procesados—revelan hallazgos no triviales. Nuestro análisis descubre las compensaciones inherentes entre la complejidad de los datos y el rendimiento de la tarea, identifica redundancias en puntos de referencia populares mediante el rastreo de linaje, y traza las relaciones genealógicas entre conjuntos de datos. Liberamos todos los resultados, herramientas y configuraciones para democratizar el acceso a la evaluación de datos de alta calidad. En lugar de simplemente expandir una tabla de clasificación, ODA vislumbra un cambio desde la curación de datos por ensayo y error hacia una ciencia fundamentada de la IA Centrada en Datos, allanando el camino para estudios rigurosos sobre las leyes de mezcla de datos y la composición estratégica de los modelos fundacionales.
English
The rapid evolution of Large Language Models (LLMs) is predicated on the quality and diversity of post-training datasets. However, a critical dichotomy persists: while models are rigorously benchmarked, the data fueling them remains a black box--characterized by opaque composition, uncertain provenance, and a lack of systematic evaluation. This opacity hinders reproducibility and obscures the causal link between data characteristics and model behaviors. To bridge this gap, we introduce OpenDataArena (ODA), a holistic and open platform designed to benchmark the intrinsic value of post-training data. ODA establishes a comprehensive ecosystem comprising four key pillars: (i) a unified training-evaluation pipeline that ensures fair, open comparisons across diverse models (e.g., Llama, Qwen) and domains; (ii) a multi-dimensional scoring framework that profiles data quality along tens of distinct axes; (iii) an interactive data lineage explorer to visualize dataset genealogy and dissect component sources; and (iv) a fully open-source toolkit for training, evaluation, and scoring to foster data research. Extensive experiments on ODA--covering over 120 training datasets across multiple domains on 22 benchmarks, validated by more than 600 training runs and 40 million processed data points--reveal non-trivial insights. Our analysis uncovers the inherent trade-offs between data complexity and task performance, identifies redundancy in popular benchmarks through lineage tracing, and maps the genealogical relationships across datasets. We release all results, tools, and configurations to democratize access to high-quality data evaluation. Rather than merely expanding a leaderboard, ODA envisions a shift from trial-and-error data curation to a principled science of Data-Centric AI, paving the way for rigorous studies on data mixing laws and the strategic composition of foundation models.
PDF333December 18, 2025