ChatPaper.aiChatPaper

InterFeedback : Révéler l'intelligence interactive des grands modèles multimodaux grâce au feedback humain

InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback

February 20, 2025
Auteurs: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou
cs.AI

Résumé

Les benchmarks existants ne testent pas les modèles multimodaux de grande taille (LMMs) sur leur intelligence interactive avec les utilisateurs humains, pourtant essentielle pour le développement d'assistants IA à usage général. Nous concevons InterFeedback, un cadre interactif qui peut être appliqué à n'importe quel LMM et ensemble de données pour évaluer cette capacité de manière autonome. En complément, nous introduisons InterFeedback-Bench, qui évalue l'intelligence interactive en utilisant deux ensembles de données représentatifs, MMMU-Pro et MathVerse, pour tester 10 LMMs open-source différents. De plus, nous présentons InterFeedback-Human, un nouvel ensemble de données de 120 cas conçu pour tester manuellement la performance interactive des modèles leaders tels qu'OpenAI-o1 et Claude-3.5-Sonnet. Nos résultats d'évaluation montrent que même les LMMs de pointe (comme OpenAI-o1) peuvent corriger leurs résultats grâce au feedback humain dans moins de 50% des cas. Nos conclusions soulignent la nécessité de méthodes capables d'améliorer la capacité des LMMs à interpréter et à tirer profit du feedback.
English
Existing benchmarks do not test Large Multimodal Models (LMMs) on their interactive intelligence with human users which is vital for developing general-purpose AI assistants. We design InterFeedback, an interactive framework, which can be applied to any LMM and dataset to assess this ability autonomously. On top of this, we introduce InterFeedback-Bench which evaluates interactive intelligence using two representative datasets, MMMU-Pro and MathVerse, to test 10 different open-source LMMs. Additionally, we present InterFeedback-Human, a newly collected dataset of 120 cases designed for manually testing interactive performance in leading models such as OpenAI-o1 and Claude-3.5-Sonnet. Our evaluation results show that even state-of-the-art LMM (like OpenAI-o1) can correct their results through human feedback less than 50%. Our findings point to the need for methods that can enhance the LMMs' capability to interpret and benefit from feedback.

Summary

AI-Generated Summary

PDF72February 24, 2025