MMCOMPOSITIE: Het heroverwegen van de Compositie van Vooraf getrainde Visie-Taal Modellen
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models
October 13, 2024
Auteurs: Hang Hua, Yunlong Tang, Ziyun Zeng, Liangliang Cao, Zhengyuan Yang, Hangfeng He, Chenliang Xu, Jiebo Luo
cs.AI
Samenvatting
De opkomst van grote Vision-Language Modellen (VLM's) heeft de multimodale begripsvorming aanzienlijk bevorderd, waardoor een meer geavanceerde en nauwkeurige integratie van visuele en tekstuele informatie mogelijk is geworden over verschillende taken, waaronder het bijschriften van afbeeldingen en video's, visueel vraagbeantwoording en cross-modale opvraging. Ondanks de superieure capaciteiten van VLM's, ontbreekt het onderzoekers aan een alomvattend begrip van hun compositionele vermogen - het vermogen om nieuwe combinaties van bekende visuele en tekstuele componenten te begrijpen en te produceren. Voorafgaande benchmarks bieden slechts een relatief ruwe evaluatie van compositioneel vermogen vanuit het perspectief van objecten, relaties en attributen, terwijl dieper redeneren over objectinteracties, tellen en complexe composities wordt verwaarloosd. Echter, compositioneel vermogen is een essentiële vaardigheid die coherente redenering en begrip over modaliteiten vergemakkelijkt voor VLM's. Om deze beperking aan te pakken, stellen we MMCOMPOSITION voor, een nieuw menselijk-geannoteerde benchmark voor het uitgebreid en nauwkeurig evalueren van de compositionele vermogens van VLM's. Onze voorgestelde benchmark dient als aanvulling op deze eerdere werken. Met MMCOMPOSITION kunnen we de compositionele vermogens van de gangbare VLM's kwantificeren en verkennen. Verrassend genoeg vinden we dat de compositionele vermogens van GPT-4o inferieur zijn aan het beste open-source model, en we analyseren de onderliggende redenen. Onze experimentele analyse onthult de beperkingen van VLM's in fijnmazige compositionele waarneming en redenering, en wijst op gebieden voor verbetering in het ontwerp en de training van VLM's. Bronnen beschikbaar op: https://hanghuacs.github.io/MMComposition/
English
The advent of large Vision-Language Models (VLMs) has significantly advanced
multimodal understanding, enabling more sophisticated and accurate integration
of visual and textual information across various tasks, including image and
video captioning, visual question answering, and cross-modal retrieval. Despite
VLMs' superior capabilities, researchers lack a comprehensive understanding of
their compositionality -- the ability to understand and produce novel
combinations of known visual and textual components. Prior benchmarks provide
only a relatively rough compositionality evaluation from the perspectives of
objects, relations, and attributes while neglecting deeper reasoning about
object interactions, counting, and complex compositions. However,
compositionality is a critical ability that facilitates coherent reasoning and
understanding across modalities for VLMs. To address this limitation, we
propose MMCOMPOSITION, a novel human-annotated benchmark for comprehensively
and accurately evaluating VLMs' compositionality. Our proposed benchmark serves
as a complement to these earlier works. With MMCOMPOSITION, we can quantify and
explore the compositionality of the mainstream VLMs. Surprisingly, we find
GPT-4o's compositionality inferior to the best open-source model, and we
analyze the underlying reasons. Our experimental analysis reveals the
limitations of VLMs in fine-grained compositional perception and reasoning, and
points to areas for improvement in VLM design and training. Resources available
at: https://hanghuacs.github.io/MMComposition/Summary
AI-Generated Summary