MMCOMPOSITION: Revisitando la Composicionalidad de Modelos Pre-entrenados de Visión-Lenguaje
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models
October 13, 2024
Autores: Hang Hua, Yunlong Tang, Ziyun Zeng, Liangliang Cao, Zhengyuan Yang, Hangfeng He, Chenliang Xu, Jiebo Luo
cs.AI
Resumen
La llegada de los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) de gran tamaño ha avanzado significativamente la comprensión multimodal, permitiendo una integración más sofisticada y precisa de la información visual y textual en diversas tareas, incluyendo la descripción de imágenes y videos, respuestas a preguntas visuales y recuperación cruzada de modalidades. A pesar de las capacidades superiores de los VLMs, los investigadores carecen de una comprensión integral de su composicionalidad, es decir, la capacidad de entender y producir combinaciones novedosas de componentes visuales y textuales conocidos. Los benchmarks anteriores proporcionan solo una evaluación relativamente básica de la composicionalidad desde las perspectivas de objetos, relaciones y atributos, al tiempo que descuidan un razonamiento más profundo sobre interacciones de objetos, conteo y composiciones complejas. Sin embargo, la composicionalidad es una habilidad crítica que facilita el razonamiento coherente y la comprensión entre modalidades para los VLMs. Para abordar esta limitación, proponemos MMCOMPOSITION, un nuevo benchmark anotado por humanos para evaluar de manera exhaustiva y precisa la composicionalidad de los VLMs. Nuestro benchmark propuesto sirve como complemento a estos trabajos anteriores. Con MMCOMPOSITION, podemos cuantificar y explorar la composicionalidad de los VLMs más comunes. Sorprendentemente, encontramos que la composicionalidad de GPT-4o es inferior a la del mejor modelo de código abierto, y analizamos las razones subyacentes. Nuestro análisis experimental revela las limitaciones de los VLMs en la percepción y razonamiento composicional detallado, y señala áreas para mejorar en el diseño y entrenamiento de los VLMs. Recursos disponibles en: https://hanghuacs.github.io/MMComposition/
English
The advent of large Vision-Language Models (VLMs) has significantly advanced
multimodal understanding, enabling more sophisticated and accurate integration
of visual and textual information across various tasks, including image and
video captioning, visual question answering, and cross-modal retrieval. Despite
VLMs' superior capabilities, researchers lack a comprehensive understanding of
their compositionality -- the ability to understand and produce novel
combinations of known visual and textual components. Prior benchmarks provide
only a relatively rough compositionality evaluation from the perspectives of
objects, relations, and attributes while neglecting deeper reasoning about
object interactions, counting, and complex compositions. However,
compositionality is a critical ability that facilitates coherent reasoning and
understanding across modalities for VLMs. To address this limitation, we
propose MMCOMPOSITION, a novel human-annotated benchmark for comprehensively
and accurately evaluating VLMs' compositionality. Our proposed benchmark serves
as a complement to these earlier works. With MMCOMPOSITION, we can quantify and
explore the compositionality of the mainstream VLMs. Surprisingly, we find
GPT-4o's compositionality inferior to the best open-source model, and we
analyze the underlying reasons. Our experimental analysis reveals the
limitations of VLMs in fine-grained compositional perception and reasoning, and
points to areas for improvement in VLM design and training. Resources available
at: https://hanghuacs.github.io/MMComposition/Summary
AI-Generated Summary