ChatPaper.aiChatPaper

InterFeedback: Enthüllung der interaktiven Intelligenz großer multimodaler Modelle durch menschliches Feedback

InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback

February 20, 2025
Autoren: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou
cs.AI

Zusammenfassung

Bestehende Benchmarks testen Large Multimodal Models (LMMs) nicht auf ihre interaktive Intelligenz mit menschlichen Nutzern, was für die Entwicklung allgemeiner KI-Assistenten von entscheidender Bedeutung ist. Wir entwickeln InterFeedback, ein interaktives Framework, das auf jedes LMM und jeden Datensatz angewendet werden kann, um diese Fähigkeit autonom zu bewerten. Darüber hinaus führen wir InterFeedback-Bench ein, das die interaktive Intelligenz anhand zweier repräsentativer Datensätze, MMMU-Pro und MathVerse, testet, um 10 verschiedene Open-Source-LMMs zu evaluieren. Zusätzlich präsentieren wir InterFeedback-Human, einen neu erhobenen Datensatz mit 120 Fällen, der für die manuelle Überprüfung der interaktiven Leistung führender Modelle wie OpenAI-o1 und Claude-3.5-Sonnet konzipiert ist. Unsere Evaluationsergebnisse zeigen, dass selbst state-of-the-art LMMs (wie OpenAI-o1) ihre Ergebnisse durch menschliches Feedback in weniger als 50% der Fälle korrigieren können. Unsere Erkenntnisse verdeutlichen die Notwendigkeit von Methoden, die die Fähigkeit von LMMs verbessern, Feedback zu interpretieren und daraus Nutzen zu ziehen.
English
Existing benchmarks do not test Large Multimodal Models (LMMs) on their interactive intelligence with human users which is vital for developing general-purpose AI assistants. We design InterFeedback, an interactive framework, which can be applied to any LMM and dataset to assess this ability autonomously. On top of this, we introduce InterFeedback-Bench which evaluates interactive intelligence using two representative datasets, MMMU-Pro and MathVerse, to test 10 different open-source LMMs. Additionally, we present InterFeedback-Human, a newly collected dataset of 120 cases designed for manually testing interactive performance in leading models such as OpenAI-o1 and Claude-3.5-Sonnet. Our evaluation results show that even state-of-the-art LMM (like OpenAI-o1) can correct their results through human feedback less than 50%. Our findings point to the need for methods that can enhance the LMMs' capability to interpret and benefit from feedback.

Summary

AI-Generated Summary

PDF72February 24, 2025