InterFeedback: Interactieve Intelligentie van Grote Multimodale Modellen Ontsluiten via Menselijke Feedback
InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback
February 20, 2025
Auteurs: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou
cs.AI
Samenvatting
Bestaande benchmarks testen Large Multimodal Models (LMMs) niet op hun interactieve intelligentie met menselijke gebruikers, wat essentieel is voor de ontwikkeling van algemene AI-assistenten. Wij ontwerpen InterFeedback, een interactief raamwerk dat op elke LMM en dataset kan worden toegepast om deze vaardigheid autonoom te beoordelen. Daarnaast introduceren we InterFeedback-Bench, dat interactieve intelligentie evalueert met behulp van twee representatieve datasets, MMMU-Pro en MathVerse, om 10 verschillende open-source LMMs te testen. Verder presenteren we InterFeedback-Human, een nieuw verzamelde dataset van 120 gevallen die is ontworpen voor het handmatig testen van interactieve prestaties in toonaangevende modellen zoals OpenAI-o1 en Claude-3.5-Sonnet. Onze evaluatieresultaten tonen aan dat zelfs state-of-the-art LMMs (zoals OpenAI-o1) hun resultaten in minder dan 50% van de gevallen kunnen corrigeren op basis van menselijke feedback. Onze bevindingen wijzen op de noodzaak van methoden die het vermogen van LMMs om feedback te interpreteren en er baat bij te hebben, kunnen verbeteren.
English
Existing benchmarks do not test Large Multimodal Models (LMMs) on their
interactive intelligence with human users which is vital for developing
general-purpose AI assistants. We design InterFeedback, an interactive
framework, which can be applied to any LMM and dataset to assess this ability
autonomously. On top of this, we introduce InterFeedback-Bench which evaluates
interactive intelligence using two representative datasets, MMMU-Pro and
MathVerse, to test 10 different open-source LMMs. Additionally, we present
InterFeedback-Human, a newly collected dataset of 120 cases designed for
manually testing interactive performance in leading models such as OpenAI-o1
and Claude-3.5-Sonnet. Our evaluation results show that even state-of-the-art
LMM (like OpenAI-o1) can correct their results through human feedback less than
50%. Our findings point to the need for methods that can enhance the LMMs'
capability to interpret and benefit from feedback.Summary
AI-Generated Summary