MixEval-X: Оценки от любого к любому на основе смесей данных из реального мира
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
October 17, 2024
Авторы: Jinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh
cs.AI
Аннотация
Восприятие и генерация разнообразных модальностей являются ключевыми для моделей искусственного интеллекта для эффективного обучения на реальных сигналах и взаимодействия с ними, что требует надежной оценки для их развития. Мы выявляем две основные проблемы в текущих оценках: (1) несогласованные стандарты, формируемые различными сообществами с разными протоколами и уровнями зрелости; и (2) значительные искажения запросов, оценок и обобщений. Для решения этих проблем мы представляем MixEval-X, первый в мире бенчмарк для оценки реального мира, разработанный для оптимизации и стандартизации оценок по входным и выходным модальностям. Мы предлагаем мультимодальные смеси бенчмарков и конвейеры адаптации-коррекции для восстановления распределений задач реального мира, обеспечивая эффективное обобщение оценок на реальные сценарии использования. Обширные метаоценки показывают, что наш подход эффективно выравнивает образцы бенчмарков с распределениями задач реального мира, и ранжирование моделей коррелирует с рейтингами реальных оценок, полученных от широкой публики (до 0.98). Мы предоставляем подробные таблицы лидеров для переранжирования существующих моделей и организаций, а также предлагаем идеи для улучшения понимания мультимодальных оценок и информирования будущих исследований.
English
Perceiving and generating diverse modalities are crucial for AI models to
effectively learn from and engage with real-world signals, necessitating
reliable evaluations for their development. We identify two major issues in
current evaluations: (1) inconsistent standards, shaped by different
communities with varying protocols and maturity levels; and (2) significant
query, grading, and generalization biases. To address these, we introduce
MixEval-X, the first any-to-any real-world benchmark designed to optimize and
standardize evaluations across input and output modalities. We propose
multi-modal benchmark mixture and adaptation-rectification pipelines to
reconstruct real-world task distributions, ensuring evaluations generalize
effectively to real-world use cases. Extensive meta-evaluations show our
approach effectively aligns benchmark samples with real-world task
distributions and the model rankings correlate strongly with that of
crowd-sourced real-world evaluations (up to 0.98). We provide comprehensive
leaderboards to rerank existing models and organizations and offer insights to
enhance understanding of multi-modal evaluations and inform future research.Summary
AI-Generated Summary