CoVLM: Komposition visueller Entitäten und Beziehungen in großen Sprachmodellen durch kommunikative Dekodierung
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding
November 6, 2023
Autoren: Junyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan
cs.AI
Zusammenfassung
Eine bemerkenswerte Fähigkeit des Menschen liegt im kompositionellen Denken, d.h. der Fähigkeit, "unendlichen Gebrauch von endlichen Mitteln" zu machen. Allerdings erreichen aktuelle große Vision-Sprache-Grundlagenmodelle (VLMs) solche kompositionellen Fähigkeiten nicht, da sie ein "Bag-of-Words"-Verhalten zeigen und nicht in der Lage sind, Wörter zu konstruieren, die visuelle Entitäten und die Beziehungen zwischen diesen korrekt repräsentieren. Daher schlagen wir CoVLM vor, das das LLM dazu anleiten kann, visuelle Entitäten und Beziehungen explizit im Text zu komponieren und dynamisch mit dem Vision-Encoder und dem Detektionsnetzwerk zu kommunizieren, um eine Vision-Sprache-Kommunikationsdekodierung zu erreichen. Konkret entwickeln wir zunächst eine Reihe neuartiger Kommunikationstokens für das LLM, um eine dynamische Kommunikation zwischen dem visuellen Detektionssystem und dem Sprachsystem zu ermöglichen. Ein Kommunikationstoken wird vom LLM nach einer visuellen Entität oder einer Beziehung generiert, um das Detektionsnetzwerk zu informieren, Regionen vorzuschlagen, die für den bisher generierten Satz relevant sind. Die vorgeschlagenen Regionen von Interesse (ROIs) werden dann zurück in das LLM eingespeist, um eine bessere Sprachgenerierung basierend auf den relevanten Regionen zu ermöglichen. Das LLM kann somit die visuellen Entitäten und Beziehungen durch die Kommunikationstokens komponieren. Die Vision-zu-Sprache- und Sprache-zu-Vision-Kommunikation wird iterativ durchgeführt, bis der gesamte Satz generiert ist. Unser Framework überbrückt nahtlos die Lücke zwischen visueller Wahrnehmung und LLMs und übertrifft frühere VLMs bei kompositionellen Denkbenchmarks deutlich (z.B. ~20 % in HICO-DET mAP, ~14 % in Cola Top-1-Genauigkeit und ~3 % in ARO Top-1-Genauigkeit). Wir erzielen auch state-of-the-art-Leistungen bei traditionellen Vision-Sprache-Aufgaben wie dem Verständnis von Referenzausdrücken und visuellen Frage-Antwort-Aufgaben.
English
A remarkable ability of human beings resides in compositional reasoning,
i.e., the capacity to make "infinite use of finite means". However, current
large vision-language foundation models (VLMs) fall short of such compositional
abilities due to their "bag-of-words" behaviors and inability to construct
words that correctly represent visual entities and the relations among the
entities. To this end, we propose CoVLM, which can guide the LLM to explicitly
compose visual entities and relationships among the text and dynamically
communicate with the vision encoder and detection network to achieve
vision-language communicative decoding. Specifically, we first devise a set of
novel communication tokens for the LLM, for dynamic communication between the
visual detection system and the language system. A communication token is
generated by the LLM following a visual entity or a relation, to inform the
detection network to propose regions that are relevant to the sentence
generated so far. The proposed regions-of-interests (ROIs) are then fed back
into the LLM for better language generation contingent on the relevant regions.
The LLM is thus able to compose the visual entities and relationships through
the communication tokens. The vision-to-language and language-to-vision
communication are iteratively performed until the entire sentence is generated.
Our framework seamlessly bridges the gap between visual perception and LLMs and
outperforms previous VLMs by a large margin on compositional reasoning
benchmarks (e.g., ~20% in HICO-DET mAP, ~14% in Cola top-1 accuracy, and ~3% on
ARO top-1 accuracy). We also achieve state-of-the-art performances on
traditional vision-language tasks such as referring expression comprehension
and visual question answering.