ChatPaper.aiChatPaper

MixEval-X: Valutazioni da Qualsiasi a Qualsiasi da Miste di Dati del Mondo Reale

MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

October 17, 2024
Autori: Jinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh
cs.AI

Abstract

Percepire e generare diverse modalità sono cruciali per i modelli di intelligenza artificiale per apprendere in modo efficace e interagire con segnali del mondo reale, rendendo necessarie valutazioni affidabili per il loro sviluppo. Identifichiamo due principali problematiche nelle valutazioni attuali: (1) standard inconsistente, plasmato da diverse comunità con protocolli e livelli di maturità variabili; e (2) significativi bias di interrogazione, valutazione e generalizzazione. Per affrontare queste questioni, presentiamo MixEval-X, il primo benchmark del mondo reale any-to-any progettato per ottimizzare e standardizzare le valutazioni tra modalità di input e output. Proponiamo miscele di benchmark multi-modalità e pipeline di adattamento-rettifica per ricostruire distribuzioni di compiti del mondo reale, garantendo che le valutazioni si generalizzino efficacemente ai casi d'uso reali. Estese meta-valutazioni mostrano che il nostro approccio allinea efficacemente campioni di benchmark con distribuzioni di compiti del mondo reale e i ranking dei modelli correlano fortemente con quelli delle valutazioni del mondo reale raccolte dalla folla (fino a 0.98). Forniamo classifiche complete per riassegnare i modelli e le organizzazioni esistenti e offriamo spunti per migliorare la comprensione delle valutazioni multi-modalità e per informare la ricerca futura.
English
Perceiving and generating diverse modalities are crucial for AI models to effectively learn from and engage with real-world signals, necessitating reliable evaluations for their development. We identify two major issues in current evaluations: (1) inconsistent standards, shaped by different communities with varying protocols and maturity levels; and (2) significant query, grading, and generalization biases. To address these, we introduce MixEval-X, the first any-to-any real-world benchmark designed to optimize and standardize evaluations across input and output modalities. We propose multi-modal benchmark mixture and adaptation-rectification pipelines to reconstruct real-world task distributions, ensuring evaluations generalize effectively to real-world use cases. Extensive meta-evaluations show our approach effectively aligns benchmark samples with real-world task distributions and the model rankings correlate strongly with that of crowd-sourced real-world evaluations (up to 0.98). We provide comprehensive leaderboards to rerank existing models and organizations and offer insights to enhance understanding of multi-modal evaluations and inform future research.

Summary

AI-Generated Summary

PDF762November 16, 2024