CoVLM : Composition d'entités visuelles et de relations dans les grands modèles de langage via un décodage communicatif
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding
November 6, 2023
Auteurs: Junyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan
cs.AI
Résumé
Une capacité remarquable des êtres humains réside dans le raisonnement compositionnel, c’est-à-dire la capacité à faire un « usage infini de moyens finis ». Cependant, les modèles de base actuels en vision et langage (VLMs) ne parviennent pas à atteindre de telles capacités compositionnelles en raison de leurs comportements de type « sac de mots » et de leur incapacité à construire des mots qui représentent correctement les entités visuelles et les relations entre ces entités. Pour pallier cela, nous proposons CoVLM, qui peut guider le modèle de langage (LLM) à composer explicitement les entités visuelles et les relations dans le texte, tout en communiquant dynamiquement avec l’encodeur visuel et le réseau de détection pour réaliser un décodage communicatif entre vision et langage. Plus précisément, nous concevons d’abord un ensemble de nouveaux tokens de communication pour le LLM, afin de permettre une communication dynamique entre le système de détection visuelle et le système de langage. Un token de communication est généré par le LLM après une entité visuelle ou une relation, pour informer le réseau de détection de proposer des régions pertinentes par rapport à la phrase générée jusqu’à présent. Les régions d’intérêt (ROIs) proposées sont ensuite réinjectées dans le LLM pour améliorer la génération de langage en fonction des régions pertinentes. Ainsi, le LLM est capable de composer les entités visuelles et les relations grâce aux tokens de communication. La communication entre la vision et le langage, et vice versa, est itérée jusqu’à ce que la phrase entière soit générée. Notre cadre comble de manière fluide le fossé entre la perception visuelle et les LLM, et surpasse largement les VLMs précédents sur les benchmarks de raisonnement compositionnel (par exemple, ~20 % en mAP sur HICO-DET, ~14 % en précision top-1 sur Cola, et ~3 % en précision top-1 sur ARO). Nous obtenons également des performances de pointe sur des tâches traditionnelles de vision et langage, telles que la compréhension d’expressions référentielles et la réponse à des questions visuelles.
English
A remarkable ability of human beings resides in compositional reasoning,
i.e., the capacity to make "infinite use of finite means". However, current
large vision-language foundation models (VLMs) fall short of such compositional
abilities due to their "bag-of-words" behaviors and inability to construct
words that correctly represent visual entities and the relations among the
entities. To this end, we propose CoVLM, which can guide the LLM to explicitly
compose visual entities and relationships among the text and dynamically
communicate with the vision encoder and detection network to achieve
vision-language communicative decoding. Specifically, we first devise a set of
novel communication tokens for the LLM, for dynamic communication between the
visual detection system and the language system. A communication token is
generated by the LLM following a visual entity or a relation, to inform the
detection network to propose regions that are relevant to the sentence
generated so far. The proposed regions-of-interests (ROIs) are then fed back
into the LLM for better language generation contingent on the relevant regions.
The LLM is thus able to compose the visual entities and relationships through
the communication tokens. The vision-to-language and language-to-vision
communication are iteratively performed until the entire sentence is generated.
Our framework seamlessly bridges the gap between visual perception and LLMs and
outperforms previous VLMs by a large margin on compositional reasoning
benchmarks (e.g., ~20% in HICO-DET mAP, ~14% in Cola top-1 accuracy, and ~3% on
ARO top-1 accuracy). We also achieve state-of-the-art performances on
traditional vision-language tasks such as referring expression comprehension
and visual question answering.