CoVLM: Comporre Entità Visive e Relazioni nei Modelli Linguistici di Grande Scala tramite Decodifica Comunicativa
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding
November 6, 2023
Autori: Junyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan
cs.AI
Abstract
Una straordinaria capacità degli esseri umani risiede nel ragionamento composizionale, ovvero la capacità di fare "uso infinito di mezzi finiti". Tuttavia, gli attuali modelli di base visione-linguaggio (VLMs) di grandi dimensioni non raggiungono tali abilità composizionali a causa dei loro comportamenti "a sacco di parole" e dell'incapacità di costruire parole che rappresentino correttamente le entità visive e le relazioni tra di esse. A tal fine, proponiamo CoVLM, che può guidare il LLM a comporre esplicitamente entità visive e relazioni nel testo e a comunicare dinamicamente con l'encoder visivo e la rete di rilevamento per ottenere una decodifica comunicativa visione-linguaggio. Nello specifico, progettiamo innanzitutto un insieme di nuovi token di comunicazione per il LLM, per una comunicazione dinamica tra il sistema di rilevamento visivo e il sistema linguistico. Un token di comunicazione viene generato dal LLM in seguito a un'entità visiva o a una relazione, per informare la rete di rilevamento di proporre regioni rilevanti rispetto alla frase generata fino a quel momento. Le regioni di interesse (ROI) proposte vengono quindi reinserite nel LLM per una migliore generazione del linguaggio in base alle regioni pertinenti. Il LLM è così in grado di comporre le entità visive e le relazioni attraverso i token di comunicazione. La comunicazione visione-linguaggio e linguaggio-visione viene eseguita in modo iterativo fino alla generazione dell'intera frase. Il nostro framework colma perfettamente il divario tra percezione visiva e LLM e supera di gran lunga i precedenti VLMs nei benchmark di ragionamento composizionale (ad esempio, ~20% in HICO-DET mAP, ~14% in Cola top-1 accuracy e ~3% in ARO top-1 accuracy). Otteniamo inoltre prestazioni all'avanguardia in compiti tradizionali visione-linguaggio come la comprensione delle espressioni di riferimento e la risposta a domande visive.
English
A remarkable ability of human beings resides in compositional reasoning,
i.e., the capacity to make "infinite use of finite means". However, current
large vision-language foundation models (VLMs) fall short of such compositional
abilities due to their "bag-of-words" behaviors and inability to construct
words that correctly represent visual entities and the relations among the
entities. To this end, we propose CoVLM, which can guide the LLM to explicitly
compose visual entities and relationships among the text and dynamically
communicate with the vision encoder and detection network to achieve
vision-language communicative decoding. Specifically, we first devise a set of
novel communication tokens for the LLM, for dynamic communication between the
visual detection system and the language system. A communication token is
generated by the LLM following a visual entity or a relation, to inform the
detection network to propose regions that are relevant to the sentence
generated so far. The proposed regions-of-interests (ROIs) are then fed back
into the LLM for better language generation contingent on the relevant regions.
The LLM is thus able to compose the visual entities and relationships through
the communication tokens. The vision-to-language and language-to-vision
communication are iteratively performed until the entire sentence is generated.
Our framework seamlessly bridges the gap between visual perception and LLMs and
outperforms previous VLMs by a large margin on compositional reasoning
benchmarks (e.g., ~20% in HICO-DET mAP, ~14% in Cola top-1 accuracy, and ~3% on
ARO top-1 accuracy). We also achieve state-of-the-art performances on
traditional vision-language tasks such as referring expression comprehension
and visual question answering.