ChatPaper.aiChatPaper

CoVLM : Composition d'entités visuelles et de relations dans les grands modèles de langage via un décodage communicatif

CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding

November 6, 2023
Auteurs: Junyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan
cs.AI

Résumé

Une capacité remarquable des êtres humains réside dans le raisonnement compositionnel, c’est-à-dire la capacité à faire un « usage infini de moyens finis ». Cependant, les modèles de base actuels en vision et langage (VLMs) ne parviennent pas à atteindre de telles capacités compositionnelles en raison de leurs comportements de type « sac de mots » et de leur incapacité à construire des mots qui représentent correctement les entités visuelles et les relations entre ces entités. Pour pallier cela, nous proposons CoVLM, qui peut guider le modèle de langage (LLM) à composer explicitement les entités visuelles et les relations dans le texte, tout en communiquant dynamiquement avec l’encodeur visuel et le réseau de détection pour réaliser un décodage communicatif entre vision et langage. Plus précisément, nous concevons d’abord un ensemble de nouveaux tokens de communication pour le LLM, afin de permettre une communication dynamique entre le système de détection visuelle et le système de langage. Un token de communication est généré par le LLM après une entité visuelle ou une relation, pour informer le réseau de détection de proposer des régions pertinentes par rapport à la phrase générée jusqu’à présent. Les régions d’intérêt (ROIs) proposées sont ensuite réinjectées dans le LLM pour améliorer la génération de langage en fonction des régions pertinentes. Ainsi, le LLM est capable de composer les entités visuelles et les relations grâce aux tokens de communication. La communication entre la vision et le langage, et vice versa, est itérée jusqu’à ce que la phrase entière soit générée. Notre cadre comble de manière fluide le fossé entre la perception visuelle et les LLM, et surpasse largement les VLMs précédents sur les benchmarks de raisonnement compositionnel (par exemple, ~20 % en mAP sur HICO-DET, ~14 % en précision top-1 sur Cola, et ~3 % en précision top-1 sur ARO). Nous obtenons également des performances de pointe sur des tâches traditionnelles de vision et langage, telles que la compréhension d’expressions référentielles et la réponse à des questions visuelles.
English
A remarkable ability of human beings resides in compositional reasoning, i.e., the capacity to make "infinite use of finite means". However, current large vision-language foundation models (VLMs) fall short of such compositional abilities due to their "bag-of-words" behaviors and inability to construct words that correctly represent visual entities and the relations among the entities. To this end, we propose CoVLM, which can guide the LLM to explicitly compose visual entities and relationships among the text and dynamically communicate with the vision encoder and detection network to achieve vision-language communicative decoding. Specifically, we first devise a set of novel communication tokens for the LLM, for dynamic communication between the visual detection system and the language system. A communication token is generated by the LLM following a visual entity or a relation, to inform the detection network to propose regions that are relevant to the sentence generated so far. The proposed regions-of-interests (ROIs) are then fed back into the LLM for better language generation contingent on the relevant regions. The LLM is thus able to compose the visual entities and relationships through the communication tokens. The vision-to-language and language-to-vision communication are iteratively performed until the entire sentence is generated. Our framework seamlessly bridges the gap between visual perception and LLMs and outperforms previous VLMs by a large margin on compositional reasoning benchmarks (e.g., ~20% in HICO-DET mAP, ~14% in Cola top-1 accuracy, and ~3% on ARO top-1 accuracy). We also achieve state-of-the-art performances on traditional vision-language tasks such as referring expression comprehension and visual question answering.
PDF80December 15, 2024