MixEval-X : Évaluations de tout type à tout type à partir de mélanges de données du monde réel

papers.abstract

Percevoir et générer diverses modalités sont cruciaux pour les modèles d'IA afin d'apprendre efficacement à partir de signaux du monde réel et d'interagir avec eux, nécessitant des évaluations fiables pour leur développement. Nous identifions deux problèmes majeurs dans les évaluations actuelles : (1) des normes incohérentes, façonnées par différentes communautés avec des protocoles et des niveaux de maturité variables ; et (2) des biais significatifs en termes de requêtes, de notation et de généralisation. Pour y remédier, nous introduisons MixEval-X, le premier banc d'essai du monde réel de tout type à tout type conçu pour optimiser et standardiser les évaluations à travers les modalités d'entrée et de sortie. Nous proposons des mélanges de bancs d'essai multimodaux et des pipelines d'adaptation-rectification pour reconstruire les distributions de tâches du monde réel, garantissant que les évaluations se généralisent efficacement aux cas d'utilisation réels. Des méta-évaluations approfondies montrent que notre approche aligne efficacement les échantillons de bancs d'essai avec les distributions de tâches du monde réel et que le classement des modèles est fortement corrélé avec celui des évaluations du monde réel crowdsourcées (jusqu'à 0,98). Nous fournissons des tableaux de classement complets pour reclasser les modèles et organisations existants et offrons des perspectives pour améliorer la compréhension des évaluations multimodales et orienter les recherches futures.

English

Perceiving and generating diverse modalities are crucial for AI models to effectively learn from and engage with real-world signals, necessitating reliable evaluations for their development. We identify two major issues in current evaluations: (1) inconsistent standards, shaped by different communities with varying protocols and maturity levels; and (2) significant query, grading, and generalization biases. To address these, we introduce MixEval-X, the first any-to-any real-world benchmark designed to optimize and standardize evaluations across input and output modalities. We propose multi-modal benchmark mixture and adaptation-rectification pipelines to reconstruct real-world task distributions, ensuring evaluations generalize effectively to real-world use cases. Extensive meta-evaluations show our approach effectively aligns benchmark samples with real-world task distributions and the model rankings correlate strongly with that of crowd-sourced real-world evaluations (up to 0.98). We provide comprehensive leaderboards to rerank existing models and organizations and offer insights to enhance understanding of multi-modal evaluations and inform future research.

MixEval-X : Évaluations de tout type à tout type à partir de mélanges de données du monde réel

MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

papers.abstract

Support