OpenDataArena: 사후 학습 데이터셋 가치 평가를 위한 공정하고 개방된 벤치마크 아레나
OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value
December 16, 2025
저자: Mengzhang Cai, Xin Gao, Yu Li, Honglin Lin, Zheng Liu, Zhuoshi Pan, Qizhi Pei, Xiaoran Shang, Mengyuan Sun, Zinan Tang, Xiaoyang Wang, Zhanping Zhong, Yun Zhu, Dahua Lin, Conghui He, Lijun Wu
cs.AI
초록
대규모 언어 모델(LLM)의 급속한 발전은 사후 훈련 데이터셋의 품질과 다양성에 기반합니다. 그러나 중요한 이분법이 지속되고 있습니다: 모델은 엄격하게 벤치마킹되는 반면, 이를 추동하는 데이터는 불투명한 구성, 불확실한 출처, 체계적 평가의 부재로 특징지어지는 블랙박스 상태로 남아 있습니다. 이러한 불투명성은 재현성을 저해하고 데이터 특성과 모델 동작 간의 인과 관계를 흐리게 합니다. 이러한 격차를 해소하기 위해 우리는 사후 훈련 데이터의 본질적 가치를 벤치마킹하기 위한 종합적이고 개방형 플랫폼인 OpenDataArena(ODA)를 소개합니다. ODA는 네 가지 핵심 요소로 구성된 포괄적인 생태계를 구축합니다: (i) 다양한 모델(예: Llama, Qwen)과 도메인 간의 공정하고 개방된 비교를 보장하는 통합 훈련-평가 파이프라인; (ii) 수십 개의 독립적인 축을 따라 데이터 품질을 프로파일링하는 다차원 점수 체계; (iii) 데이터셋 계보를 시각화하고 구성 요소 출처를 분석하는 인터랙티브 데이터 계보 탐색기; (iv) 데이터 연구를 촉진하기 위한 훈련, 평가, 점수 부여용 완전 오픈소스 툴킷. ODA에서 수행한 광범위한 실험(22개 벤치마크에서 여러 도메인에 걸친 120개 이상의 훈련 데이터셋을 포함하며, 600회 이상의 훈련 실행과 4천만 개 이상의 처리된 데이터 포인트로 검증됨)은 중대한 통찰력을 보여줍니다. 우리의 분석은 데이터 복잡성과 과제 성과 간의 내재적 트레이드오프를 발견하고, 계보 추적을 통해 인기 벤치마크의 중복성을 확인하며, 데이터셋 간의 계보적 관계를 매핑합니다. 우리는 모든 결과, 도구 및 구성을 공개하여 고품질 데이터 평가에 대한 접근을 민주화합니다. ODA는 단순히 리더보드를 확장하는 것을 넘어, 시행착오식 데이터 큐레이션에서 원칙 기반의 데이터 중심 AI 과학으로의 전환을 지향하며, 데이터 혼합 법칙과 기초 모델의 전략적 구성에 대한 엄격한 연구의 길을 열어갑니다.
English
The rapid evolution of Large Language Models (LLMs) is predicated on the quality and diversity of post-training datasets. However, a critical dichotomy persists: while models are rigorously benchmarked, the data fueling them remains a black box--characterized by opaque composition, uncertain provenance, and a lack of systematic evaluation. This opacity hinders reproducibility and obscures the causal link between data characteristics and model behaviors. To bridge this gap, we introduce OpenDataArena (ODA), a holistic and open platform designed to benchmark the intrinsic value of post-training data. ODA establishes a comprehensive ecosystem comprising four key pillars: (i) a unified training-evaluation pipeline that ensures fair, open comparisons across diverse models (e.g., Llama, Qwen) and domains; (ii) a multi-dimensional scoring framework that profiles data quality along tens of distinct axes; (iii) an interactive data lineage explorer to visualize dataset genealogy and dissect component sources; and (iv) a fully open-source toolkit for training, evaluation, and scoring to foster data research. Extensive experiments on ODA--covering over 120 training datasets across multiple domains on 22 benchmarks, validated by more than 600 training runs and 40 million processed data points--reveal non-trivial insights. Our analysis uncovers the inherent trade-offs between data complexity and task performance, identifies redundancy in popular benchmarks through lineage tracing, and maps the genealogical relationships across datasets. We release all results, tools, and configurations to democratize access to high-quality data evaluation. Rather than merely expanding a leaderboard, ODA envisions a shift from trial-and-error data curation to a principled science of Data-Centric AI, paving the way for rigorous studies on data mixing laws and the strategic composition of foundation models.