CoVLM: Composición de entidades visuales y relaciones en modelos de lenguaje grande mediante decodificación comunicativa
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding
November 6, 2023
Autores: Junyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan
cs.AI
Resumen
Una habilidad notable de los seres humanos reside en el razonamiento composicional, es decir, la capacidad de hacer "uso infinito de medios finitos". Sin embargo, los actuales modelos fundamentales de visión y lenguaje (VLMs) carecen de tales habilidades composicionales debido a sus comportamientos de "bolsa de palabras" y su incapacidad para construir palabras que representen correctamente entidades visuales y las relaciones entre ellas. Para abordar esto, proponemos CoVLM, que puede guiar al LLM para componer explícitamente entidades visuales y relaciones en el texto, y comunicarse dinámicamente con el codificador de visión y la red de detección para lograr un decodificado comunicativo entre visión y lenguaje. Específicamente, primero diseñamos un conjunto de tokens de comunicación novedosos para el LLM, que permiten la comunicación dinámica entre el sistema de detección visual y el sistema de lenguaje. Un token de comunicación es generado por el LLM después de una entidad visual o una relación, para informar a la red de detección que proponga regiones relevantes a la oración generada hasta el momento. Las regiones de interés (ROIs) propuestas se retroalimentan al LLM para una mejor generación de lenguaje basada en las regiones relevantes. Así, el LLM puede componer las entidades visuales y las relaciones a través de los tokens de comunicación. La comunicación de visión a lenguaje y de lenguaje a visión se realiza iterativamente hasta que se genera la oración completa. Nuestro marco cierra la brecha entre la percepción visual y los LLMs, superando ampliamente a los VLMs anteriores en benchmarks de razonamiento composicional (por ejemplo, ~20% en HICO-DET mAP, ~14% en Cola precisión top-1 y ~3% en ARO precisión top-1). También logramos resultados de vanguardia en tareas tradicionales de visión y lenguaje, como la comprensión de expresiones referenciales y la respuesta a preguntas visuales.
English
A remarkable ability of human beings resides in compositional reasoning,
i.e., the capacity to make "infinite use of finite means". However, current
large vision-language foundation models (VLMs) fall short of such compositional
abilities due to their "bag-of-words" behaviors and inability to construct
words that correctly represent visual entities and the relations among the
entities. To this end, we propose CoVLM, which can guide the LLM to explicitly
compose visual entities and relationships among the text and dynamically
communicate with the vision encoder and detection network to achieve
vision-language communicative decoding. Specifically, we first devise a set of
novel communication tokens for the LLM, for dynamic communication between the
visual detection system and the language system. A communication token is
generated by the LLM following a visual entity or a relation, to inform the
detection network to propose regions that are relevant to the sentence
generated so far. The proposed regions-of-interests (ROIs) are then fed back
into the LLM for better language generation contingent on the relevant regions.
The LLM is thus able to compose the visual entities and relationships through
the communication tokens. The vision-to-language and language-to-vision
communication are iteratively performed until the entire sentence is generated.
Our framework seamlessly bridges the gap between visual perception and LLMs and
outperforms previous VLMs by a large margin on compositional reasoning
benchmarks (e.g., ~20% in HICO-DET mAP, ~14% in Cola top-1 accuracy, and ~3% on
ARO top-1 accuracy). We also achieve state-of-the-art performances on
traditional vision-language tasks such as referring expression comprehension
and visual question answering.