MixEval-X: Avaliações de Qualquer-para-Qualquer a partir de Misturas de Dados do Mundo Real
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
October 17, 2024
Autores: Jinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh
cs.AI
Resumo
Perceber e gerar diversas modalidades são cruciais para os modelos de IA aprenderem e interagirem efetivamente com sinais do mundo real, exigindo avaliações confiáveis para o seu desenvolvimento. Identificamos dois problemas principais nas avaliações atuais: (1) padrões inconsistentes, moldados por diferentes comunidades com protocolos e níveis de maturidade variados; e (2) viés significativo em consultas, classificações e generalizações. Para lidar com isso, apresentamos o MixEval-X, o primeiro benchmark do mundo real de qualquer para qualquer, projetado para otimizar e padronizar avaliações em diferentes modalidades de entrada e saída. Propomos misturas de benchmarks multimodais e pipelines de adaptação-retificação para reconstruir distribuições de tarefas do mundo real, garantindo que as avaliações generalizem efetivamente para casos de uso do mundo real. Avaliações meta-extensivas mostram que nossa abordagem alinha efetivamente amostras de benchmark com distribuições de tarefas do mundo real e as classificações dos modelos se correlacionam fortemente com as avaliações do mundo real feitas por multidões (até 0,98). Fornecemos classificações abrangentes para reclassificar modelos e organizações existentes e oferecemos insights para aprimorar a compreensão das avaliações multimodais e informar pesquisas futuras.
English
Perceiving and generating diverse modalities are crucial for AI models to
effectively learn from and engage with real-world signals, necessitating
reliable evaluations for their development. We identify two major issues in
current evaluations: (1) inconsistent standards, shaped by different
communities with varying protocols and maturity levels; and (2) significant
query, grading, and generalization biases. To address these, we introduce
MixEval-X, the first any-to-any real-world benchmark designed to optimize and
standardize evaluations across input and output modalities. We propose
multi-modal benchmark mixture and adaptation-rectification pipelines to
reconstruct real-world task distributions, ensuring evaluations generalize
effectively to real-world use cases. Extensive meta-evaluations show our
approach effectively aligns benchmark samples with real-world task
distributions and the model rankings correlate strongly with that of
crowd-sourced real-world evaluations (up to 0.98). We provide comprehensive
leaderboards to rerank existing models and organizations and offer insights to
enhance understanding of multi-modal evaluations and inform future research.Summary
AI-Generated Summary