ChatPaper.aiChatPaper

CogVLM: Especialista Visual para Modelos de Linguagem Pré-treinados

CogVLM: Visual Expert for Pretrained Language Models

November 6, 2023
Autores: Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI

Resumo

Apresentamos o CogVLM, um poderoso modelo de base de linguagem visual de código aberto. Diferente do método popular de alinhamento superficial, que mapeia características de imagem para o espaço de entrada do modelo de linguagem, o CogVLM preenche a lacuna entre o modelo de linguagem pré-treinado congelado e o codificador de imagem por meio de um módulo especialista visual treinável nas camadas de atenção e FFN. Como resultado, o CogVLM permite uma fusão profunda de características de linguagem visual sem sacrificar o desempenho em tarefas de NLP. O CogVLM-17B alcança desempenho de ponta em 10 benchmarks clássicos de modalidade cruzada, incluindo NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA e TDIUC, e ocupa o 2º lugar em VQAv2, OKVQA, TextVQA, COCO captioning, etc., superando ou igualando o PaLI-X 55B. Códigos e checkpoints estão disponíveis em https://github.com/THUDM/CogVLM.
English
We introduce CogVLM, a powerful open-source visual language foundation model. Different from the popular shallow alignment method which maps image features into the input space of language model, CogVLM bridges the gap between the frozen pretrained language model and image encoder by a trainable visual expert module in the attention and FFN layers. As a result, CogVLM enables deep fusion of vision language features without sacrificing any performance on NLP tasks. CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA and TDIUC, and ranks the 2nd on VQAv2, OKVQA, TextVQA, COCO captioning, etc., surpassing or matching PaLI-X 55B. Codes and checkpoints are available at https://github.com/THUDM/CogVLM.
PDF274February 8, 2026