ММСОСТАВ: Переосмысление Композициональности Предобученных Моделей Видео-Язык
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models
October 13, 2024
Авторы: Hang Hua, Yunlong Tang, Ziyun Zeng, Liangliang Cao, Zhengyuan Yang, Hangfeng He, Chenliang Xu, Jiebo Luo
cs.AI
Аннотация
Появление больших моделей видео-языка (VLM) значительно продвинуло мультимодальное понимание, обеспечивая более сложную и точную интеграцию визуальной и текстовой информации в различных задачах, включая подписывание изображений и видео, визуальное ответ на вопросы и кросс-модальный поиск. Несмотря на превосходные возможности VLM, исследователям не хватает всеобъемлющего понимания их композициональности - способности понимать и создавать новые комбинации известных визуальных и текстовых компонентов. Предыдущие бенчмарки предоставляют лишь относительно грубую оценку композициональности с точки зрения объектов, отношений и атрибутов, игнорируя более глубокое рассуждение о взаимодействиях объектов, подсчете и сложных композициях. Однако композициональность является критической способностью, облегчающей последовательное рассуждение и понимание между модальностями для VLM. Для преодоления этого ограничения мы предлагаем MMCOMPOSITION, новый бенчмарк с аннотациями человека для всесторонней и точной оценки композициональности VLM. Наш предложенный бенчмарк служит дополнением к ранее проведенным работам. С помощью MMCOMPOSITION мы можем количественно оценить и исследовать композициональность основных VLM. Удивительно, что мы обнаруживаем, что композициональность GPT-4o уступает лучшей модели с открытым исходным кодом, и анализируем причины этого. Наш экспериментальный анализ выявляет ограничения VLM в тонком композиционном восприятии и рассуждениях, указывая на области для улучшения в дизайне и обучении VLM. Ресурсы доступны по ссылке: https://hanghuacs.github.io/MMComposition/
English
The advent of large Vision-Language Models (VLMs) has significantly advanced
multimodal understanding, enabling more sophisticated and accurate integration
of visual and textual information across various tasks, including image and
video captioning, visual question answering, and cross-modal retrieval. Despite
VLMs' superior capabilities, researchers lack a comprehensive understanding of
their compositionality -- the ability to understand and produce novel
combinations of known visual and textual components. Prior benchmarks provide
only a relatively rough compositionality evaluation from the perspectives of
objects, relations, and attributes while neglecting deeper reasoning about
object interactions, counting, and complex compositions. However,
compositionality is a critical ability that facilitates coherent reasoning and
understanding across modalities for VLMs. To address this limitation, we
propose MMCOMPOSITION, a novel human-annotated benchmark for comprehensively
and accurately evaluating VLMs' compositionality. Our proposed benchmark serves
as a complement to these earlier works. With MMCOMPOSITION, we can quantify and
explore the compositionality of the mainstream VLMs. Surprisingly, we find
GPT-4o's compositionality inferior to the best open-source model, and we
analyze the underlying reasons. Our experimental analysis reveals the
limitations of VLMs in fine-grained compositional perception and reasoning, and
points to areas for improvement in VLM design and training. Resources available
at: https://hanghuacs.github.io/MMComposition/Summary
AI-Generated Summary