MMCOMPOSITION: Revisitando a Composicionalidade de Modelos Pré-treinados de Visão e Linguagem
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models
October 13, 2024
Autores: Hang Hua, Yunlong Tang, Ziyun Zeng, Liangliang Cao, Zhengyuan Yang, Hangfeng He, Chenliang Xu, Jiebo Luo
cs.AI
Resumo
O surgimento de grandes Modelos Visão-Linguagem (VLMs) avançou significativamente a compreensão multimodal, possibilitando uma integração mais sofisticada e precisa de informações visuais e textuais em diversas tarefas, incluindo legendagem de imagens e vídeos, resposta a perguntas visuais e recuperação cruzada de modalidades. Apesar das capacidades superiores dos VLMs, os pesquisadores carecem de uma compreensão abrangente de sua composicionalidade - a capacidade de compreender e produzir combinações inovadoras de componentes visuais e textuais conhecidos. Avaliações anteriores fornecem apenas uma avaliação relativamente rudimentar da composicionalidade sob as perspectivas de objetos, relações e atributos, negligenciando um raciocínio mais profundo sobre interações entre objetos, contagem e composições complexas. No entanto, a composicionalidade é uma habilidade crítica que facilita o raciocínio coerente e a compreensão entre modalidades para os VLMs. Para abordar essa limitação, propomos MMCOMPOSITION, um novo benchmark anotado por humanos para avaliar de forma abrangente e precisa a composicionalidade dos VLMs. Nosso benchmark proposto serve como um complemento a esses trabalhos anteriores. Com o MMCOMPOSITION, podemos quantificar e explorar a composicionalidade dos VLMs mainstream. Surpreendentemente, descobrimos que a composicionalidade do GPT-4o é inferior à do melhor modelo de código aberto, e analisamos as razões subjacentes. Nossa análise experimental revela as limitações dos VLMs na percepção e raciocínio composicional detalhados, apontando áreas para melhoria no design e treinamento de VLMs. Recursos disponíveis em: https://hanghuacs.github.io/MMComposition/
English
The advent of large Vision-Language Models (VLMs) has significantly advanced
multimodal understanding, enabling more sophisticated and accurate integration
of visual and textual information across various tasks, including image and
video captioning, visual question answering, and cross-modal retrieval. Despite
VLMs' superior capabilities, researchers lack a comprehensive understanding of
their compositionality -- the ability to understand and produce novel
combinations of known visual and textual components. Prior benchmarks provide
only a relatively rough compositionality evaluation from the perspectives of
objects, relations, and attributes while neglecting deeper reasoning about
object interactions, counting, and complex compositions. However,
compositionality is a critical ability that facilitates coherent reasoning and
understanding across modalities for VLMs. To address this limitation, we
propose MMCOMPOSITION, a novel human-annotated benchmark for comprehensively
and accurately evaluating VLMs' compositionality. Our proposed benchmark serves
as a complement to these earlier works. With MMCOMPOSITION, we can quantify and
explore the compositionality of the mainstream VLMs. Surprisingly, we find
GPT-4o's compositionality inferior to the best open-source model, and we
analyze the underlying reasons. Our experimental analysis reveals the
limitations of VLMs in fine-grained compositional perception and reasoning, and
points to areas for improvement in VLM design and training. Resources available
at: https://hanghuacs.github.io/MMComposition/Summary
AI-Generated Summary