InterFeedback: Revelando la Inteligencia Interactiva de los Modelos Multimodales de Gran Escala mediante Retroalimentación Humana
InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback
February 20, 2025
Autores: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou
cs.AI
Resumen
Los puntos de referencia existentes no evalúan a los Modelos Multimodales de Gran Escala (LMMs) en su inteligencia interactiva con usuarios humanos, lo cual es crucial para el desarrollo de asistentes de IA de propósito general. Diseñamos InterFeedback, un marco interactivo que puede aplicarse a cualquier LMM y conjunto de datos para evaluar esta capacidad de manera autónoma. Sobre esta base, presentamos InterFeedback-Bench, que evalúa la inteligencia interactiva utilizando dos conjuntos de datos representativos, MMMU-Pro y MathVerse, para probar 10 LMMs de código abierto diferentes. Además, introducimos InterFeedback-Human, un nuevo conjunto de datos de 120 casos diseñado para probar manualmente el rendimiento interactivo en modelos líderes como OpenAI-o1 y Claude-3.5-Sonnet. Nuestros resultados de evaluación muestran que incluso los LMMs más avanzados (como OpenAI-o1) pueden corregir sus resultados mediante retroalimentación humana en menos del 50%. Nuestros hallazgos señalan la necesidad de métodos que mejoren la capacidad de los LMMs para interpretar y beneficiarse de la retroalimentación.
English
Existing benchmarks do not test Large Multimodal Models (LMMs) on their
interactive intelligence with human users which is vital for developing
general-purpose AI assistants. We design InterFeedback, an interactive
framework, which can be applied to any LMM and dataset to assess this ability
autonomously. On top of this, we introduce InterFeedback-Bench which evaluates
interactive intelligence using two representative datasets, MMMU-Pro and
MathVerse, to test 10 different open-source LMMs. Additionally, we present
InterFeedback-Human, a newly collected dataset of 120 cases designed for
manually testing interactive performance in leading models such as OpenAI-o1
and Claude-3.5-Sonnet. Our evaluation results show that even state-of-the-art
LMM (like OpenAI-o1) can correct their results through human feedback less than
50%. Our findings point to the need for methods that can enhance the LMMs'
capability to interpret and benefit from feedback.Summary
AI-Generated Summary