MixEval-X: Evaluaciones de cualquier a cualquier a partir de mezclas de datos del mundo real.
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
October 17, 2024
Autores: Jinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh
cs.AI
Resumen
Percepción y generación de diversas modalidades son cruciales para que los modelos de IA aprendan y se relacionen efectivamente con señales del mundo real, lo que requiere evaluaciones confiables para su desarrollo. Identificamos dos problemas principales en las evaluaciones actuales: (1) estándares inconsistentes, formados por diferentes comunidades con protocolos y niveles de madurez variables; y (2) sesgos significativos en consultas, calificaciones y generalización. Para abordar estos problemas, presentamos MixEval-X, el primer banco de pruebas del mundo real de cualquier a cualquier diseñado para optimizar y estandarizar evaluaciones entre modalidades de entrada y salida. Proponemos mezclas de bancos de pruebas multimodales y tuberías de adaptación-rectificación para reconstruir distribuciones de tareas del mundo real, asegurando que las evaluaciones se generalicen efectivamente a casos de uso reales. Evaluaciones meta extensas muestran que nuestro enfoque alinea efectivamente muestras de bancos de pruebas con distribuciones de tareas del mundo real y que las clasificaciones de modelos se correlacionan fuertemente con las evaluaciones del mundo real realizadas por la multitud (hasta 0.98). Proporcionamos tablas de clasificación completas para reordenar modelos y organizaciones existentes y ofrecemos ideas para mejorar la comprensión de las evaluaciones multimodales e informar futuras investigaciones.
English
Perceiving and generating diverse modalities are crucial for AI models to
effectively learn from and engage with real-world signals, necessitating
reliable evaluations for their development. We identify two major issues in
current evaluations: (1) inconsistent standards, shaped by different
communities with varying protocols and maturity levels; and (2) significant
query, grading, and generalization biases. To address these, we introduce
MixEval-X, the first any-to-any real-world benchmark designed to optimize and
standardize evaluations across input and output modalities. We propose
multi-modal benchmark mixture and adaptation-rectification pipelines to
reconstruct real-world task distributions, ensuring evaluations generalize
effectively to real-world use cases. Extensive meta-evaluations show our
approach effectively aligns benchmark samples with real-world task
distributions and the model rankings correlate strongly with that of
crowd-sourced real-world evaluations (up to 0.98). We provide comprehensive
leaderboards to rerank existing models and organizations and offer insights to
enhance understanding of multi-modal evaluations and inform future research.Summary
AI-Generated Summary