MMCOMPOSITION : Réexamen de la Compositionnalité des Modèles Vision-Language Pré-entraînés
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models
October 13, 2024
Auteurs: Hang Hua, Yunlong Tang, Ziyun Zeng, Liangliang Cao, Zhengyuan Yang, Hangfeng He, Chenliang Xu, Jiebo Luo
cs.AI
Résumé
L'avènement des grands Modèles Vision-Langage (VLM) a considérablement fait progresser la compréhension multimodale, permettant une intégration plus sophistiquée et précise des informations visuelles et textuelles à travers diverses tâches, notamment la légende d'images et de vidéos, la réponse à des questions visuelles et la recherche croisée multimodale. Malgré les capacités supérieures des VLM, les chercheurs manquent d'une compréhension complète de leur compositionnalité - la capacité à comprendre et produire de nouvelles combinaisons de composants visuels et textuels connus. Les benchmarks précédents ne fournissent qu'une évaluation relativement grossière de la compositionnalité du point de vue des objets, des relations et des attributs, en négligeant un raisonnement plus approfondi sur les interactions entre objets, le dénombrement et les compositions complexes. Cependant, la compositionnalité est une capacité critique qui facilite le raisonnement cohérent et la compréhension à travers les modalités pour les VLM. Pour remédier à cette limitation, nous proposons MMCOMPOSITION, un nouveau benchmark annoté par des humains pour évaluer de manière exhaustive et précise la compositionnalité des VLM. Notre benchmark proposé sert de complément à ces travaux antérieurs. Avec MMCOMPOSITION, nous pouvons quantifier et explorer la compositionnalité des VLM les plus courants. À notre grande surprise, nous constatons une compositionnalité inférieure de GPT-4o par rapport au meilleur modèle open-source, et nous analysons les raisons sous-jacentes. Notre analyse expérimentale révèle les limites des VLM dans la perception et le raisonnement compositionnels fins, et indique des pistes d'amélioration dans la conception et l'entraînement des VLM. Ressources disponibles sur : https://hanghuacs.github.io/MMComposition/
English
The advent of large Vision-Language Models (VLMs) has significantly advanced
multimodal understanding, enabling more sophisticated and accurate integration
of visual and textual information across various tasks, including image and
video captioning, visual question answering, and cross-modal retrieval. Despite
VLMs' superior capabilities, researchers lack a comprehensive understanding of
their compositionality -- the ability to understand and produce novel
combinations of known visual and textual components. Prior benchmarks provide
only a relatively rough compositionality evaluation from the perspectives of
objects, relations, and attributes while neglecting deeper reasoning about
object interactions, counting, and complex compositions. However,
compositionality is a critical ability that facilitates coherent reasoning and
understanding across modalities for VLMs. To address this limitation, we
propose MMCOMPOSITION, a novel human-annotated benchmark for comprehensively
and accurately evaluating VLMs' compositionality. Our proposed benchmark serves
as a complement to these earlier works. With MMCOMPOSITION, we can quantify and
explore the compositionality of the mainstream VLMs. Surprisingly, we find
GPT-4o's compositionality inferior to the best open-source model, and we
analyze the underlying reasons. Our experimental analysis reveals the
limitations of VLMs in fine-grained compositional perception and reasoning, and
points to areas for improvement in VLM design and training. Resources available
at: https://hanghuacs.github.io/MMComposition/Summary
AI-Generated Summary