ChatPaper.aiChatPaper

InterFeedback: Interactieve Intelligentie van Grote Multimodale Modellen Ontsluiten via Menselijke Feedback

InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback

February 20, 2025
Auteurs: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou
cs.AI

Samenvatting

Bestaande benchmarks testen Large Multimodal Models (LMMs) niet op hun interactieve intelligentie met menselijke gebruikers, wat essentieel is voor de ontwikkeling van algemene AI-assistenten. Wij ontwerpen InterFeedback, een interactief raamwerk dat op elke LMM en dataset kan worden toegepast om deze vaardigheid autonoom te beoordelen. Daarnaast introduceren we InterFeedback-Bench, dat interactieve intelligentie evalueert met behulp van twee representatieve datasets, MMMU-Pro en MathVerse, om 10 verschillende open-source LMMs te testen. Verder presenteren we InterFeedback-Human, een nieuw verzamelde dataset van 120 gevallen die is ontworpen voor het handmatig testen van interactieve prestaties in toonaangevende modellen zoals OpenAI-o1 en Claude-3.5-Sonnet. Onze evaluatieresultaten tonen aan dat zelfs state-of-the-art LMMs (zoals OpenAI-o1) hun resultaten in minder dan 50% van de gevallen kunnen corrigeren op basis van menselijke feedback. Onze bevindingen wijzen op de noodzaak van methoden die het vermogen van LMMs om feedback te interpreteren en er baat bij te hebben, kunnen verbeteren.
English
Existing benchmarks do not test Large Multimodal Models (LMMs) on their interactive intelligence with human users which is vital for developing general-purpose AI assistants. We design InterFeedback, an interactive framework, which can be applied to any LMM and dataset to assess this ability autonomously. On top of this, we introduce InterFeedback-Bench which evaluates interactive intelligence using two representative datasets, MMMU-Pro and MathVerse, to test 10 different open-source LMMs. Additionally, we present InterFeedback-Human, a newly collected dataset of 120 cases designed for manually testing interactive performance in leading models such as OpenAI-o1 and Claude-3.5-Sonnet. Our evaluation results show that even state-of-the-art LMM (like OpenAI-o1) can correct their results through human feedback less than 50%. Our findings point to the need for methods that can enhance the LMMs' capability to interpret and benefit from feedback.

Summary

AI-Generated Summary

PDF72February 24, 2025