MixEval-X: Evaluierungen von beliebigen zu beliebigen aus Datenmischungen der realen Welt

papers.abstract

Das Wahrnehmen und Generieren verschiedener Modalitäten sind entscheidend für KI-Modelle, um effektiv aus realen Signalen zu lernen und mit ihnen zu interagieren, was zuverlässige Bewertungen für ihre Entwicklung erforderlich macht. Wir identifizieren zwei Hauptprobleme bei aktuellen Bewertungen: (1) inkonsistente Standards, geprägt von verschiedenen Gemeinschaften mit unterschiedlichen Protokollen und Reifegraden; und (2) signifikante Abfragen-, Bewertungs- und Verallgemeinerungsfehler. Um diesen Herausforderungen zu begegnen, stellen wir MixEval-X vor, den ersten beliebigen-zu-beliebigen Benchmark für reale Welt, der darauf abzielt, Bewertungen über Eingabe- und Ausgabemodalitäten zu optimieren und zu standardisieren. Wir schlagen multimodale Benchmark-Mischungs- und Anpassungs-Korrektur-Pipelines vor, um reale Aufgabenverteilungen wiederherzustellen und sicherzustellen, dass Bewertungen effektiv auf reale Anwendungsfälle verallgemeinern. Umfangreiche Meta-Bewertungen zeigen, dass unser Ansatz Benchmark-Stichproben effektiv mit realen Aufgabenverteilungen abgleicht und die Modell-Rankings stark mit denen von crowd-sourced realen Welt-Bewertungen korrelieren (bis zu 0,98). Wir bieten umfassende Ranglisten an, um bestehende Modelle und Organisationen neu zu bewerten und Erkenntnisse zu liefern, um das Verständnis von multimodalen Bewertungen zu verbessern und zukünftige Forschung zu informieren.

English

Perceiving and generating diverse modalities are crucial for AI models to effectively learn from and engage with real-world signals, necessitating reliable evaluations for their development. We identify two major issues in current evaluations: (1) inconsistent standards, shaped by different communities with varying protocols and maturity levels; and (2) significant query, grading, and generalization biases. To address these, we introduce MixEval-X, the first any-to-any real-world benchmark designed to optimize and standardize evaluations across input and output modalities. We propose multi-modal benchmark mixture and adaptation-rectification pipelines to reconstruct real-world task distributions, ensuring evaluations generalize effectively to real-world use cases. Extensive meta-evaluations show our approach effectively aligns benchmark samples with real-world task distributions and the model rankings correlate strongly with that of crowd-sourced real-world evaluations (up to 0.98). We provide comprehensive leaderboards to rerank existing models and organizations and offer insights to enhance understanding of multi-modal evaluations and inform future research.

MixEval-X: Evaluierungen von beliebigen zu beliebigen aus Datenmischungen der realen Welt

MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

papers.abstract

Support