MixEval-X: Evaluierungen von beliebigen zu beliebigen aus Datenmischungen der realen Welt
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
October 17, 2024
Autoren: Jinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh
cs.AI
Zusammenfassung
Das Wahrnehmen und Generieren verschiedener Modalitäten sind entscheidend für KI-Modelle, um effektiv aus realen Signalen zu lernen und mit ihnen zu interagieren, was zuverlässige Bewertungen für ihre Entwicklung erforderlich macht. Wir identifizieren zwei Hauptprobleme bei aktuellen Bewertungen: (1) inkonsistente Standards, geprägt von verschiedenen Gemeinschaften mit unterschiedlichen Protokollen und Reifegraden; und (2) signifikante Abfragen-, Bewertungs- und Verallgemeinerungsfehler. Um diesen Herausforderungen zu begegnen, stellen wir MixEval-X vor, den ersten beliebigen-zu-beliebigen Benchmark für reale Welt, der darauf abzielt, Bewertungen über Eingabe- und Ausgabemodalitäten zu optimieren und zu standardisieren. Wir schlagen multimodale Benchmark-Mischungs- und Anpassungs-Korrektur-Pipelines vor, um reale Aufgabenverteilungen wiederherzustellen und sicherzustellen, dass Bewertungen effektiv auf reale Anwendungsfälle verallgemeinern. Umfangreiche Meta-Bewertungen zeigen, dass unser Ansatz Benchmark-Stichproben effektiv mit realen Aufgabenverteilungen abgleicht und die Modell-Rankings stark mit denen von crowd-sourced realen Welt-Bewertungen korrelieren (bis zu 0,98). Wir bieten umfassende Ranglisten an, um bestehende Modelle und Organisationen neu zu bewerten und Erkenntnisse zu liefern, um das Verständnis von multimodalen Bewertungen zu verbessern und zukünftige Forschung zu informieren.
English
Perceiving and generating diverse modalities are crucial for AI models to
effectively learn from and engage with real-world signals, necessitating
reliable evaluations for their development. We identify two major issues in
current evaluations: (1) inconsistent standards, shaped by different
communities with varying protocols and maturity levels; and (2) significant
query, grading, and generalization biases. To address these, we introduce
MixEval-X, the first any-to-any real-world benchmark designed to optimize and
standardize evaluations across input and output modalities. We propose
multi-modal benchmark mixture and adaptation-rectification pipelines to
reconstruct real-world task distributions, ensuring evaluations generalize
effectively to real-world use cases. Extensive meta-evaluations show our
approach effectively aligns benchmark samples with real-world task
distributions and the model rankings correlate strongly with that of
crowd-sourced real-world evaluations (up to 0.98). We provide comprehensive
leaderboards to rerank existing models and organizations and offer insights to
enhance understanding of multi-modal evaluations and inform future research.Summary
AI-Generated Summary