CoVLM: Compor Entidades Visuais e Relações em Modelos de Linguagem de Grande Escala por meio de Decodificação Comunicativa
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding
November 6, 2023
Autores: Junyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan
cs.AI
Resumo
Uma habilidade notável dos seres humanos reside no raciocínio composicional, ou seja, a capacidade de fazer "uso infinito de meios finitos". No entanto, os atuais modelos de base visão-linguagem (VLMs) de grande escala não possuem tais habilidades composicionais devido aos seus comportamentos de "saco de palavras" e à incapacidade de construir palavras que representem corretamente entidades visuais e as relações entre essas entidades. Para isso, propomos o CoVLM, que pode orientar o LLM a compor explicitamente entidades visuais e relações no texto e se comunicar dinamicamente com o codificador de visão e a rede de detecção para alcançar uma decodificação comunicativa visão-linguagem. Especificamente, primeiro projetamos um conjunto de tokens de comunicação inovadores para o LLM, para permitir a comunicação dinâmica entre o sistema de detecção visual e o sistema de linguagem. Um token de comunicação é gerado pelo LLM após uma entidade visual ou uma relação, para informar à rede de detecção que proponha regiões relevantes para a frase gerada até o momento. As regiões de interesse (ROIs) propostas são então retroalimentadas no LLM para uma melhor geração de linguagem condicionada às regiões relevantes. Assim, o LLM é capaz de compor as entidades visuais e relações por meio dos tokens de comunicação. A comunicação visão-para-linguagem e linguagem-para-visão é realizada iterativamente até que a frase completa seja gerada. Nosso framework conecta de forma contínua a lacuna entre a percepção visual e os LLMs e supera os VLMs anteriores por uma grande margem em benchmarks de raciocínio composicional (por exemplo, ~20% no mAP do HICO-DET, ~14% na acurácia top-1 do Cola e ~3% na acurácia top-1 do ARO). Também alcançamos desempenhos de ponta em tarefas tradicionais de visão-linguagem, como compreensão de expressões referenciais e resposta a perguntas visuais.
English
A remarkable ability of human beings resides in compositional reasoning,
i.e., the capacity to make "infinite use of finite means". However, current
large vision-language foundation models (VLMs) fall short of such compositional
abilities due to their "bag-of-words" behaviors and inability to construct
words that correctly represent visual entities and the relations among the
entities. To this end, we propose CoVLM, which can guide the LLM to explicitly
compose visual entities and relationships among the text and dynamically
communicate with the vision encoder and detection network to achieve
vision-language communicative decoding. Specifically, we first devise a set of
novel communication tokens for the LLM, for dynamic communication between the
visual detection system and the language system. A communication token is
generated by the LLM following a visual entity or a relation, to inform the
detection network to propose regions that are relevant to the sentence
generated so far. The proposed regions-of-interests (ROIs) are then fed back
into the LLM for better language generation contingent on the relevant regions.
The LLM is thus able to compose the visual entities and relationships through
the communication tokens. The vision-to-language and language-to-vision
communication are iteratively performed until the entire sentence is generated.
Our framework seamlessly bridges the gap between visual perception and LLMs and
outperforms previous VLMs by a large margin on compositional reasoning
benchmarks (e.g., ~20% in HICO-DET mAP, ~14% in Cola top-1 accuracy, and ~3% on
ARO top-1 accuracy). We also achieve state-of-the-art performances on
traditional vision-language tasks such as referring expression comprehension
and visual question answering.