ChatPaper.aiChatPaper

InterFeedback: Revelando la Inteligencia Interactiva de los Modelos Multimodales de Gran Escala mediante Retroalimentación Humana

InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback

February 20, 2025
Autores: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou
cs.AI

Resumen

Los puntos de referencia existentes no evalúan a los Modelos Multimodales de Gran Escala (LMMs) en su inteligencia interactiva con usuarios humanos, lo cual es crucial para el desarrollo de asistentes de IA de propósito general. Diseñamos InterFeedback, un marco interactivo que puede aplicarse a cualquier LMM y conjunto de datos para evaluar esta capacidad de manera autónoma. Sobre esta base, presentamos InterFeedback-Bench, que evalúa la inteligencia interactiva utilizando dos conjuntos de datos representativos, MMMU-Pro y MathVerse, para probar 10 LMMs de código abierto diferentes. Además, introducimos InterFeedback-Human, un nuevo conjunto de datos de 120 casos diseñado para probar manualmente el rendimiento interactivo en modelos líderes como OpenAI-o1 y Claude-3.5-Sonnet. Nuestros resultados de evaluación muestran que incluso los LMMs más avanzados (como OpenAI-o1) pueden corregir sus resultados mediante retroalimentación humana en menos del 50%. Nuestros hallazgos señalan la necesidad de métodos que mejoren la capacidad de los LMMs para interpretar y beneficiarse de la retroalimentación.
English
Existing benchmarks do not test Large Multimodal Models (LMMs) on their interactive intelligence with human users which is vital for developing general-purpose AI assistants. We design InterFeedback, an interactive framework, which can be applied to any LMM and dataset to assess this ability autonomously. On top of this, we introduce InterFeedback-Bench which evaluates interactive intelligence using two representative datasets, MMMU-Pro and MathVerse, to test 10 different open-source LMMs. Additionally, we present InterFeedback-Human, a newly collected dataset of 120 cases designed for manually testing interactive performance in leading models such as OpenAI-o1 and Claude-3.5-Sonnet. Our evaluation results show that even state-of-the-art LMM (like OpenAI-o1) can correct their results through human feedback less than 50%. Our findings point to the need for methods that can enhance the LMMs' capability to interpret and benefit from feedback.

Summary

AI-Generated Summary

PDF72February 24, 2025