ChatPaper.aiChatPaper

InterFeedback: Revelando a Inteligência Interativa de Modelos Multimodais de Grande Escala por meio de Feedback Humano

InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback

February 20, 2025
Autores: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou
cs.AI

Resumo

Os benchmarks existentes não testam os Modelos Multimodais de Grande Escala (LMMs) em sua inteligência interativa com usuários humanos, o que é crucial para o desenvolvimento de assistentes de IA de propósito geral. Projetamos o InterFeedback, uma estrutura interativa que pode ser aplicada a qualquer LMM e conjunto de dados para avaliar essa capacidade de forma autônoma. Além disso, introduzimos o InterFeedback-Bench, que avalia a inteligência interativa utilizando dois conjuntos de dados representativos, MMMU-Pro e MathVerse, para testar 10 diferentes LMMs de código aberto. Adicionalmente, apresentamos o InterFeedback-Human, um novo conjunto de dados coletado com 120 casos projetados para testar manualmente o desempenho interativo em modelos líderes, como o OpenAI-o1 e o Claude-3.5-Sonnet. Nossos resultados de avaliação mostram que mesmo os LMMs mais avançados (como o OpenAI-o1) conseguem corrigir seus resultados com base no feedback humano em menos de 50% dos casos. Nossas descobertas apontam para a necessidade de métodos que possam aprimorar a capacidade dos LMMs de interpretar e se beneficiar do feedback.
English
Existing benchmarks do not test Large Multimodal Models (LMMs) on their interactive intelligence with human users which is vital for developing general-purpose AI assistants. We design InterFeedback, an interactive framework, which can be applied to any LMM and dataset to assess this ability autonomously. On top of this, we introduce InterFeedback-Bench which evaluates interactive intelligence using two representative datasets, MMMU-Pro and MathVerse, to test 10 different open-source LMMs. Additionally, we present InterFeedback-Human, a newly collected dataset of 120 cases designed for manually testing interactive performance in leading models such as OpenAI-o1 and Claude-3.5-Sonnet. Our evaluation results show that even state-of-the-art LMM (like OpenAI-o1) can correct their results through human feedback less than 50%. Our findings point to the need for methods that can enhance the LMMs' capability to interpret and benefit from feedback.

Summary

AI-Generated Summary

PDF72February 24, 2025