InterFeedback : Révéler l'intelligence interactive des grands modèles multimodaux grâce au feedback humain
InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback
February 20, 2025
Auteurs: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou
cs.AI
Résumé
Les benchmarks existants ne testent pas les modèles multimodaux de grande taille (LMMs) sur leur intelligence interactive avec les utilisateurs humains, pourtant essentielle pour le développement d'assistants IA à usage général. Nous concevons InterFeedback, un cadre interactif qui peut être appliqué à n'importe quel LMM et ensemble de données pour évaluer cette capacité de manière autonome. En complément, nous introduisons InterFeedback-Bench, qui évalue l'intelligence interactive en utilisant deux ensembles de données représentatifs, MMMU-Pro et MathVerse, pour tester 10 LMMs open-source différents. De plus, nous présentons InterFeedback-Human, un nouvel ensemble de données de 120 cas conçu pour tester manuellement la performance interactive des modèles leaders tels qu'OpenAI-o1 et Claude-3.5-Sonnet. Nos résultats d'évaluation montrent que même les LMMs de pointe (comme OpenAI-o1) peuvent corriger leurs résultats grâce au feedback humain dans moins de 50% des cas. Nos conclusions soulignent la nécessité de méthodes capables d'améliorer la capacité des LMMs à interpréter et à tirer profit du feedback.
English
Existing benchmarks do not test Large Multimodal Models (LMMs) on their
interactive intelligence with human users which is vital for developing
general-purpose AI assistants. We design InterFeedback, an interactive
framework, which can be applied to any LMM and dataset to assess this ability
autonomously. On top of this, we introduce InterFeedback-Bench which evaluates
interactive intelligence using two representative datasets, MMMU-Pro and
MathVerse, to test 10 different open-source LMMs. Additionally, we present
InterFeedback-Human, a newly collected dataset of 120 cases designed for
manually testing interactive performance in leading models such as OpenAI-o1
and Claude-3.5-Sonnet. Our evaluation results show that even state-of-the-art
LMM (like OpenAI-o1) can correct their results through human feedback less than
50%. Our findings point to the need for methods that can enhance the LMMs'
capability to interpret and benefit from feedback.Summary
AI-Generated Summary