InterFeedback: Enthüllung der interaktiven Intelligenz großer multimodaler Modelle durch menschliches Feedback
InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback
February 20, 2025
Autoren: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou
cs.AI
Zusammenfassung
Bestehende Benchmarks testen Large Multimodal Models (LMMs) nicht auf ihre interaktive Intelligenz mit menschlichen Nutzern, was für die Entwicklung allgemeiner KI-Assistenten von entscheidender Bedeutung ist. Wir entwickeln InterFeedback, ein interaktives Framework, das auf jedes LMM und jeden Datensatz angewendet werden kann, um diese Fähigkeit autonom zu bewerten. Darüber hinaus führen wir InterFeedback-Bench ein, das die interaktive Intelligenz anhand zweier repräsentativer Datensätze, MMMU-Pro und MathVerse, testet, um 10 verschiedene Open-Source-LMMs zu evaluieren. Zusätzlich präsentieren wir InterFeedback-Human, einen neu erhobenen Datensatz mit 120 Fällen, der für die manuelle Überprüfung der interaktiven Leistung führender Modelle wie OpenAI-o1 und Claude-3.5-Sonnet konzipiert ist. Unsere Evaluationsergebnisse zeigen, dass selbst state-of-the-art LMMs (wie OpenAI-o1) ihre Ergebnisse durch menschliches Feedback in weniger als 50% der Fälle korrigieren können. Unsere Erkenntnisse verdeutlichen die Notwendigkeit von Methoden, die die Fähigkeit von LMMs verbessern, Feedback zu interpretieren und daraus Nutzen zu ziehen.
English
Existing benchmarks do not test Large Multimodal Models (LMMs) on their
interactive intelligence with human users which is vital for developing
general-purpose AI assistants. We design InterFeedback, an interactive
framework, which can be applied to any LMM and dataset to assess this ability
autonomously. On top of this, we introduce InterFeedback-Bench which evaluates
interactive intelligence using two representative datasets, MMMU-Pro and
MathVerse, to test 10 different open-source LMMs. Additionally, we present
InterFeedback-Human, a newly collected dataset of 120 cases designed for
manually testing interactive performance in leading models such as OpenAI-o1
and Claude-3.5-Sonnet. Our evaluation results show that even state-of-the-art
LMM (like OpenAI-o1) can correct their results through human feedback less than
50%. Our findings point to the need for methods that can enhance the LMMs'
capability to interpret and benefit from feedback.Summary
AI-Generated Summary