MMZUSAMMENSETZUNG: Überprüfung der Kompositionalität von vortrainierten Vision-Language-Modellen

papers.abstract

Der Aufstieg großer Vision-Language-Modelle (VLMs) hat die multimodale Verarbeitung wesentlich vorangetrieben, was eine anspruchsvollere und präzisere Integration visueller und textueller Informationen über verschiedene Aufgaben hinweg ermöglicht, darunter Bild- und Videobeschreibungen, visuelle Fragestellungen und Cross-Modal Retrieval. Trotz der überlegenen Fähigkeiten von VLMs fehlt es Forschern an einem umfassenden Verständnis ihrer Kompositionsstruktur - der Fähigkeit, neuartige Kombinationen bekannter visueller und textueller Komponenten zu verstehen und zu erzeugen. Frühere Leistungsbewertungen bieten lediglich eine relativ grobe Bewertung der Kompositionsstruktur aus Sicht von Objekten, Relationen und Attributen, wobei tiefgreifendere Überlegungen zu Objektinteraktionen, Zählungen und komplexen Strukturen vernachlässigt werden. Dennoch ist Kompositionalität eine entscheidende Fähigkeit, die kohärentes Denken und Verstehen über Modalitäten hinweg für VLMs erleichtert. Um diese Einschränkung anzugehen, schlagen wir MMCOMPOSITION vor, einen neuartigen, menschlich annotierten Bewertungsmaßstab zur umfassenden und präzisen Evaluierung der Kompositionsstruktur von VLMs. Unser vorgeschlagener Bewertungsmaßstab dient als Ergänzung zu diesen früheren Arbeiten. Mit MMCOMPOSITION können wir die Kompositionalität der gängigen VLMs quantifizieren und erforschen. Überraschenderweise stellen wir fest, dass die Kompositionalität von GPT-4o der besten Open-Source-Modelle unterlegen ist, und wir analysieren die zugrunde liegenden Gründe. Unsere experimentelle Analyse zeigt die Grenzen von VLMs in der feinkörnigen kompositorischen Wahrnehmung und Argumentation auf und weist auf Bereiche hin, in denen das Design und Training von VLMs verbessert werden können. Ressourcen verfügbar unter: https://hanghuacs.github.io/MMComposition/

English

The advent of large Vision-Language Models (VLMs) has significantly advanced multimodal understanding, enabling more sophisticated and accurate integration of visual and textual information across various tasks, including image and video captioning, visual question answering, and cross-modal retrieval. Despite VLMs' superior capabilities, researchers lack a comprehensive understanding of their compositionality -- the ability to understand and produce novel combinations of known visual and textual components. Prior benchmarks provide only a relatively rough compositionality evaluation from the perspectives of objects, relations, and attributes while neglecting deeper reasoning about object interactions, counting, and complex compositions. However, compositionality is a critical ability that facilitates coherent reasoning and understanding across modalities for VLMs. To address this limitation, we propose MMCOMPOSITION, a novel human-annotated benchmark for comprehensively and accurately evaluating VLMs' compositionality. Our proposed benchmark serves as a complement to these earlier works. With MMCOMPOSITION, we can quantify and explore the compositionality of the mainstream VLMs. Surprisingly, we find GPT-4o's compositionality inferior to the best open-source model, and we analyze the underlying reasons. Our experimental analysis reveals the limitations of VLMs in fine-grained compositional perception and reasoning, and points to areas for improvement in VLM design and training. Resources available at: https://hanghuacs.github.io/MMComposition/

MMZUSAMMENSETZUNG: Überprüfung der Kompositionalität von vortrainierten Vision-Language-Modellen

MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models

papers.abstract

Support