CoVLM: Композиция визуальных объектов и отношений в крупных языковых моделях с помощью коммуникативного декодирования
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding
November 6, 2023
Авторы: Junyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan
cs.AI
Аннотация
Замечательная способность человека заключается в композиционном мышлении, то есть в умении делать "бесконечное использование конечных средств". Однако современные крупные модели, объединяющие зрение и язык (VLMs), не обладают такими композиционными способностями из-за их "мешкообразного" поведения и неспособности конструировать слова, которые корректно представляют визуальные объекты и отношения между ними. В связи с этим мы предлагаем CoVLM, которая может направлять языковую модель (LLM) на явное составление визуальных объектов и отношений в тексте, а также динамически взаимодействовать с визуальным кодировщиком и сетью детекции для достижения коммуникативного декодирования между зрением и языком. В частности, мы сначала разрабатываем набор новых коммуникационных токенов для LLM, предназначенных для динамического взаимодействия между системой визуальной детекции и языковой системой. Коммуникационный токен генерируется LLM после визуального объекта или отношения, чтобы сообщить сети детекции предложить области, релевантные сгенерированному на данный момент предложению. Предложенные области интереса (ROIs) затем возвращаются в LLM для улучшения генерации языка с учетом соответствующих областей. Таким образом, LLM может составлять визуальные объекты и отношения через коммуникационные токены. Взаимодействие между зрением и языком и языком и зрением выполняется итеративно до тех пор, пока не будет сгенерировано все предложение. Наша структура эффективно устраняет разрыв между визуальным восприятием и LLM и значительно превосходит предыдущие VLMs по показателям композиционного мышления (например, ~20% в HICO-DET mAP, ~14% в Cola top-1 accuracy и ~3% в ARO top-1 accuracy). Мы также достигаем современных результатов в традиционных задачах, связанных с зрением и языком, таких как понимание референциальных выражений и визуальный вопросно-ответный анализ.
English
A remarkable ability of human beings resides in compositional reasoning,
i.e., the capacity to make "infinite use of finite means". However, current
large vision-language foundation models (VLMs) fall short of such compositional
abilities due to their "bag-of-words" behaviors and inability to construct
words that correctly represent visual entities and the relations among the
entities. To this end, we propose CoVLM, which can guide the LLM to explicitly
compose visual entities and relationships among the text and dynamically
communicate with the vision encoder and detection network to achieve
vision-language communicative decoding. Specifically, we first devise a set of
novel communication tokens for the LLM, for dynamic communication between the
visual detection system and the language system. A communication token is
generated by the LLM following a visual entity or a relation, to inform the
detection network to propose regions that are relevant to the sentence
generated so far. The proposed regions-of-interests (ROIs) are then fed back
into the LLM for better language generation contingent on the relevant regions.
The LLM is thus able to compose the visual entities and relationships through
the communication tokens. The vision-to-language and language-to-vision
communication are iteratively performed until the entire sentence is generated.
Our framework seamlessly bridges the gap between visual perception and LLMs and
outperforms previous VLMs by a large margin on compositional reasoning
benchmarks (e.g., ~20% in HICO-DET mAP, ~14% in Cola top-1 accuracy, and ~3% on
ARO top-1 accuracy). We also achieve state-of-the-art performances on
traditional vision-language tasks such as referring expression comprehension
and visual question answering.