ChatPaper.aiChatPaper

OpenDataArena: Eine faire und offene Plattform für das Benchmarking des Werts von Nachbearbeitungsdatensätzen

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value

December 16, 2025
papers.authors: Mengzhang Cai, Xin Gao, Yu Li, Honglin Lin, Zheng Liu, Zhuoshi Pan, Qizhi Pei, Xiaoran Shang, Mengyuan Sun, Zinan Tang, Xiaoyang Wang, Zhanping Zhong, Yun Zhu, Dahua Lin, Conghui He, Lijun Wu
cs.AI

papers.abstract

Die rasante Entwicklung großer Sprachmodelle (LLMs) hängt maßgeblich von der Qualität und Vielfalt der Post-Training-Datensätze ab. Es besteht jedoch ein grundlegendes Dilemma: Während Modelle rigoros benchmarkgetestet werden, bleiben die Daten, die sie antreiben, eine Blackbox – gekennzeichnet durch undurchsichtige Zusammensetzung, unklare Herkunft und fehlende systematische Evaluation. Diese Intransparenz behindert die Reproduzierbarkeit und verschleiert den kausalen Zusammenhang zwischen Datenmerkmalen und Modellverhalten. Um diese Lücke zu schließen, stellen wir OpenDataArena (ODA) vor, eine holistische und offene Plattform zur Bewertung des intrinsischen Werts von Post-Training-Daten. ODA etabliert ein umfassendes Ökosystem mit vier zentralen Säulen: (i) eine vereinheitlichte Trainings-Evaluations-Pipeline, die faire, offene Vergleiche verschiedener Modelle (z.B. Llama, Qwen) und Domänen gewährleistet; (ii) ein multidimensionales Bewertungsframework, das Datenqualität entlang dutzender spezifischer Achsen profiliert; (iii) ein interaktiver Data-Lineage-Explorer zur Visualisierung von Datensatz-Genealogien und Analyse von Komponentenquellen; und (iv) ein vollständig quelloffenes Toolkit für Training, Evaluation und Bewertung zur Förderung der Datenforschung. Umfangreiche Experimente auf ODA – mit über 120 Trainingsdatensätzen aus mehreren Domänen auf 22 Benchmarks, validiert durch mehr als 600 Trainingsläufe und 40 Millionen verarbeitete Datenpunkte – liefern bedeutende Erkenntnisse. Unsere Analyse deckt inhärente Zielkonflikte zwischen Datenkomplexität und Aufgabenperformance auf, identifiziert Redundanzen in gängigen Benchmarks durch Herkunftsverfolgung und kartiert die genealogischen Beziehungen zwischen Datensätzen. Wir veröffentlichen alle Ergebnisse, Tools und Konfigurationen, um den Zugang zu hochwertiger Datenevaluation zu demokratisieren. Statt lediglich eine Bestenliste zu erweitern, zielt ODA auf einen Wandel ab: von trial-and-error-Datenkuratierung hin zu einer prinzipienbasierten Wissenschaft des Data-Centric AI, um den Weg für rigorose Studien zu Datenmischungsgesetzen und der strategischen Zusammensetzung von Foundation Models zu ebnen.
English
The rapid evolution of Large Language Models (LLMs) is predicated on the quality and diversity of post-training datasets. However, a critical dichotomy persists: while models are rigorously benchmarked, the data fueling them remains a black box--characterized by opaque composition, uncertain provenance, and a lack of systematic evaluation. This opacity hinders reproducibility and obscures the causal link between data characteristics and model behaviors. To bridge this gap, we introduce OpenDataArena (ODA), a holistic and open platform designed to benchmark the intrinsic value of post-training data. ODA establishes a comprehensive ecosystem comprising four key pillars: (i) a unified training-evaluation pipeline that ensures fair, open comparisons across diverse models (e.g., Llama, Qwen) and domains; (ii) a multi-dimensional scoring framework that profiles data quality along tens of distinct axes; (iii) an interactive data lineage explorer to visualize dataset genealogy and dissect component sources; and (iv) a fully open-source toolkit for training, evaluation, and scoring to foster data research. Extensive experiments on ODA--covering over 120 training datasets across multiple domains on 22 benchmarks, validated by more than 600 training runs and 40 million processed data points--reveal non-trivial insights. Our analysis uncovers the inherent trade-offs between data complexity and task performance, identifies redundancy in popular benchmarks through lineage tracing, and maps the genealogical relationships across datasets. We release all results, tools, and configurations to democratize access to high-quality data evaluation. Rather than merely expanding a leaderboard, ODA envisions a shift from trial-and-error data curation to a principled science of Data-Centric AI, paving the way for rigorous studies on data mixing laws and the strategic composition of foundation models.
PDF333December 18, 2025