MixEval-X : Évaluations de tout type à tout type à partir de mélanges de données du monde réel
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
October 17, 2024
Auteurs: Jinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh
cs.AI
Résumé
Percevoir et générer diverses modalités sont cruciaux pour les modèles d'IA afin d'apprendre efficacement à partir de signaux du monde réel et d'interagir avec eux, nécessitant des évaluations fiables pour leur développement. Nous identifions deux problèmes majeurs dans les évaluations actuelles : (1) des normes incohérentes, façonnées par différentes communautés avec des protocoles et des niveaux de maturité variables ; et (2) des biais significatifs en termes de requêtes, de notation et de généralisation. Pour y remédier, nous introduisons MixEval-X, le premier banc d'essai du monde réel de tout type à tout type conçu pour optimiser et standardiser les évaluations à travers les modalités d'entrée et de sortie. Nous proposons des mélanges de bancs d'essai multimodaux et des pipelines d'adaptation-rectification pour reconstruire les distributions de tâches du monde réel, garantissant que les évaluations se généralisent efficacement aux cas d'utilisation réels. Des méta-évaluations approfondies montrent que notre approche aligne efficacement les échantillons de bancs d'essai avec les distributions de tâches du monde réel et que le classement des modèles est fortement corrélé avec celui des évaluations du monde réel crowdsourcées (jusqu'à 0,98). Nous fournissons des tableaux de classement complets pour reclasser les modèles et organisations existants et offrons des perspectives pour améliorer la compréhension des évaluations multimodales et orienter les recherches futures.
English
Perceiving and generating diverse modalities are crucial for AI models to
effectively learn from and engage with real-world signals, necessitating
reliable evaluations for their development. We identify two major issues in
current evaluations: (1) inconsistent standards, shaped by different
communities with varying protocols and maturity levels; and (2) significant
query, grading, and generalization biases. To address these, we introduce
MixEval-X, the first any-to-any real-world benchmark designed to optimize and
standardize evaluations across input and output modalities. We propose
multi-modal benchmark mixture and adaptation-rectification pipelines to
reconstruct real-world task distributions, ensuring evaluations generalize
effectively to real-world use cases. Extensive meta-evaluations show our
approach effectively aligns benchmark samples with real-world task
distributions and the model rankings correlate strongly with that of
crowd-sourced real-world evaluations (up to 0.98). We provide comprehensive
leaderboards to rerank existing models and organizations and offer insights to
enhance understanding of multi-modal evaluations and inform future research.Summary
AI-Generated Summary