MMZUSAMMENSETZUNG: Überprüfung der Kompositionalität von vortrainierten Vision-Language-Modellen
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models
October 13, 2024
Autoren: Hang Hua, Yunlong Tang, Ziyun Zeng, Liangliang Cao, Zhengyuan Yang, Hangfeng He, Chenliang Xu, Jiebo Luo
cs.AI
Zusammenfassung
Der Aufstieg großer Vision-Language-Modelle (VLMs) hat die multimodale Verarbeitung wesentlich vorangetrieben, was eine anspruchsvollere und präzisere Integration visueller und textueller Informationen über verschiedene Aufgaben hinweg ermöglicht, darunter Bild- und Videobeschreibungen, visuelle Fragestellungen und Cross-Modal Retrieval. Trotz der überlegenen Fähigkeiten von VLMs fehlt es Forschern an einem umfassenden Verständnis ihrer Kompositionsstruktur - der Fähigkeit, neuartige Kombinationen bekannter visueller und textueller Komponenten zu verstehen und zu erzeugen. Frühere Leistungsbewertungen bieten lediglich eine relativ grobe Bewertung der Kompositionsstruktur aus Sicht von Objekten, Relationen und Attributen, wobei tiefgreifendere Überlegungen zu Objektinteraktionen, Zählungen und komplexen Strukturen vernachlässigt werden. Dennoch ist Kompositionalität eine entscheidende Fähigkeit, die kohärentes Denken und Verstehen über Modalitäten hinweg für VLMs erleichtert. Um diese Einschränkung anzugehen, schlagen wir MMCOMPOSITION vor, einen neuartigen, menschlich annotierten Bewertungsmaßstab zur umfassenden und präzisen Evaluierung der Kompositionsstruktur von VLMs. Unser vorgeschlagener Bewertungsmaßstab dient als Ergänzung zu diesen früheren Arbeiten. Mit MMCOMPOSITION können wir die Kompositionalität der gängigen VLMs quantifizieren und erforschen. Überraschenderweise stellen wir fest, dass die Kompositionalität von GPT-4o der besten Open-Source-Modelle unterlegen ist, und wir analysieren die zugrunde liegenden Gründe. Unsere experimentelle Analyse zeigt die Grenzen von VLMs in der feinkörnigen kompositorischen Wahrnehmung und Argumentation auf und weist auf Bereiche hin, in denen das Design und Training von VLMs verbessert werden können. Ressourcen verfügbar unter: https://hanghuacs.github.io/MMComposition/
English
The advent of large Vision-Language Models (VLMs) has significantly advanced
multimodal understanding, enabling more sophisticated and accurate integration
of visual and textual information across various tasks, including image and
video captioning, visual question answering, and cross-modal retrieval. Despite
VLMs' superior capabilities, researchers lack a comprehensive understanding of
their compositionality -- the ability to understand and produce novel
combinations of known visual and textual components. Prior benchmarks provide
only a relatively rough compositionality evaluation from the perspectives of
objects, relations, and attributes while neglecting deeper reasoning about
object interactions, counting, and complex compositions. However,
compositionality is a critical ability that facilitates coherent reasoning and
understanding across modalities for VLMs. To address this limitation, we
propose MMCOMPOSITION, a novel human-annotated benchmark for comprehensively
and accurately evaluating VLMs' compositionality. Our proposed benchmark serves
as a complement to these earlier works. With MMCOMPOSITION, we can quantify and
explore the compositionality of the mainstream VLMs. Surprisingly, we find
GPT-4o's compositionality inferior to the best open-source model, and we
analyze the underlying reasons. Our experimental analysis reveals the
limitations of VLMs in fine-grained compositional perception and reasoning, and
points to areas for improvement in VLM design and training. Resources available
at: https://hanghuacs.github.io/MMComposition/Summary
AI-Generated Summary