MMCOMPOSITION: Revisitando la Composicionalidad de Modelos Pre-entrenados de Visión-Lenguaje

Resumen

La llegada de los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) de gran tamaño ha avanzado significativamente la comprensión multimodal, permitiendo una integración más sofisticada y precisa de la información visual y textual en diversas tareas, incluyendo la descripción de imágenes y videos, respuestas a preguntas visuales y recuperación cruzada de modalidades. A pesar de las capacidades superiores de los VLMs, los investigadores carecen de una comprensión integral de su composicionalidad, es decir, la capacidad de entender y producir combinaciones novedosas de componentes visuales y textuales conocidos. Los benchmarks anteriores proporcionan solo una evaluación relativamente básica de la composicionalidad desde las perspectivas de objetos, relaciones y atributos, al tiempo que descuidan un razonamiento más profundo sobre interacciones de objetos, conteo y composiciones complejas. Sin embargo, la composicionalidad es una habilidad crítica que facilita el razonamiento coherente y la comprensión entre modalidades para los VLMs. Para abordar esta limitación, proponemos MMCOMPOSITION, un nuevo benchmark anotado por humanos para evaluar de manera exhaustiva y precisa la composicionalidad de los VLMs. Nuestro benchmark propuesto sirve como complemento a estos trabajos anteriores. Con MMCOMPOSITION, podemos cuantificar y explorar la composicionalidad de los VLMs más comunes. Sorprendentemente, encontramos que la composicionalidad de GPT-4o es inferior a la del mejor modelo de código abierto, y analizamos las razones subyacentes. Nuestro análisis experimental revela las limitaciones de los VLMs en la percepción y razonamiento composicional detallado, y señala áreas para mejorar en el diseño y entrenamiento de los VLMs. Recursos disponibles en: https://hanghuacs.github.io/MMComposition/

English

The advent of large Vision-Language Models (VLMs) has significantly advanced multimodal understanding, enabling more sophisticated and accurate integration of visual and textual information across various tasks, including image and video captioning, visual question answering, and cross-modal retrieval. Despite VLMs' superior capabilities, researchers lack a comprehensive understanding of their compositionality -- the ability to understand and produce novel combinations of known visual and textual components. Prior benchmarks provide only a relatively rough compositionality evaluation from the perspectives of objects, relations, and attributes while neglecting deeper reasoning about object interactions, counting, and complex compositions. However, compositionality is a critical ability that facilitates coherent reasoning and understanding across modalities for VLMs. To address this limitation, we propose MMCOMPOSITION, a novel human-annotated benchmark for comprehensively and accurately evaluating VLMs' compositionality. Our proposed benchmark serves as a complement to these earlier works. With MMCOMPOSITION, we can quantify and explore the compositionality of the mainstream VLMs. Surprisingly, we find GPT-4o's compositionality inferior to the best open-source model, and we analyze the underlying reasons. Our experimental analysis reveals the limitations of VLMs in fine-grained compositional perception and reasoning, and points to areas for improvement in VLM design and training. Resources available at: https://hanghuacs.github.io/MMComposition/

MMCOMPOSITION: Revisitando la Composicionalidad de Modelos Pre-entrenados de Visión-Lenguaje

MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models

Resumen

Support