MixEval-X: 実世界データの混合からの任意対任意評価
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
October 17, 2024
著者: Jinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh
cs.AI
要旨
異なるモダリティを認識および生成することは、AIモデルが現実世界の信号から効果的に学習し、関わるために重要であり、それらの開発のために信頼性のある評価が必要です。現在の評価における2つの主要な問題を特定します:(1)異なるコミュニティによって形成された異なるプロトコルと成熟度レベルによって形成された一貫性のない基準;および(2)重要なクエリ、評価、および一般化のバイアス。これらに対処するために、我々はMixEval-Xを導入します。これは、入力および出力のモダリティ全体にわたる評価を最適化し標準化するために設計された初のany-to-any実世界ベンチマークです。我々は、マルチモーダルベンチマークの混合と適応-補正パイプラインを提案し、実世界のタスク分布を再構築して、評価が実世界のユースケースに効果的に一般化されることを確認します。包括的なメタ評価により、我々のアプローチがベンチマークサンプルを実世界のタスク分布と効果的に整合させ、モデルのランキングがクラウドソーシングされた実世界の評価と強く相関することを示します(最大0.98)。我々は、既存のモデルや組織を再ランク付けするための包括的なリーダーボードを提供し、マルチモーダル評価の理解を向上させ、将来の研究に情報提供を行います。
English
Perceiving and generating diverse modalities are crucial for AI models to
effectively learn from and engage with real-world signals, necessitating
reliable evaluations for their development. We identify two major issues in
current evaluations: (1) inconsistent standards, shaped by different
communities with varying protocols and maturity levels; and (2) significant
query, grading, and generalization biases. To address these, we introduce
MixEval-X, the first any-to-any real-world benchmark designed to optimize and
standardize evaluations across input and output modalities. We propose
multi-modal benchmark mixture and adaptation-rectification pipelines to
reconstruct real-world task distributions, ensuring evaluations generalize
effectively to real-world use cases. Extensive meta-evaluations show our
approach effectively aligns benchmark samples with real-world task
distributions and the model rankings correlate strongly with that of
crowd-sourced real-world evaluations (up to 0.98). We provide comprehensive
leaderboards to rerank existing models and organizations and offer insights to
enhance understanding of multi-modal evaluations and inform future research.Summary
AI-Generated Summary