InterFeedback: Revelando a Inteligência Interativa de Modelos Multimodais de Grande Escala por meio de Feedback Humano
InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback
February 20, 2025
Autores: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou
cs.AI
Resumo
Os benchmarks existentes não testam os Modelos Multimodais de Grande Escala (LMMs) em sua inteligência interativa com usuários humanos, o que é crucial para o desenvolvimento de assistentes de IA de propósito geral. Projetamos o InterFeedback, uma estrutura interativa que pode ser aplicada a qualquer LMM e conjunto de dados para avaliar essa capacidade de forma autônoma. Além disso, introduzimos o InterFeedback-Bench, que avalia a inteligência interativa utilizando dois conjuntos de dados representativos, MMMU-Pro e MathVerse, para testar 10 diferentes LMMs de código aberto. Adicionalmente, apresentamos o InterFeedback-Human, um novo conjunto de dados coletado com 120 casos projetados para testar manualmente o desempenho interativo em modelos líderes, como o OpenAI-o1 e o Claude-3.5-Sonnet. Nossos resultados de avaliação mostram que mesmo os LMMs mais avançados (como o OpenAI-o1) conseguem corrigir seus resultados com base no feedback humano em menos de 50% dos casos. Nossas descobertas apontam para a necessidade de métodos que possam aprimorar a capacidade dos LMMs de interpretar e se beneficiar do feedback.
English
Existing benchmarks do not test Large Multimodal Models (LMMs) on their
interactive intelligence with human users which is vital for developing
general-purpose AI assistants. We design InterFeedback, an interactive
framework, which can be applied to any LMM and dataset to assess this ability
autonomously. On top of this, we introduce InterFeedback-Bench which evaluates
interactive intelligence using two representative datasets, MMMU-Pro and
MathVerse, to test 10 different open-source LMMs. Additionally, we present
InterFeedback-Human, a newly collected dataset of 120 cases designed for
manually testing interactive performance in leading models such as OpenAI-o1
and Claude-3.5-Sonnet. Our evaluation results show that even state-of-the-art
LMM (like OpenAI-o1) can correct their results through human feedback less than
50%. Our findings point to the need for methods that can enhance the LMMs'
capability to interpret and benefit from feedback.Summary
AI-Generated Summary