CogVLM: Visuele Expert voor Voorgetrainde Taalmodellen
CogVLM: Visual Expert for Pretrained Language Models
November 6, 2023
Auteurs: Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang
cs.AI
Samenvatting
We introduceren CogVLM, een krachtig open-source visueel taal fundamentmodel.
In tegenstelling tot de populaire methode van oppervlakkige afstemming, waarbij beeldkenmerken worden toegewezen aan de invoerruimte van het taalmodel, overbrugt CogVLM de kloof tussen het bevroren voorgetrainde taalmodel en de beeldencoder door middel van een trainbare visuele expertmodule in de aandacht- en FFN-lagen. Hierdoor maakt CogVLM een diepe fusie van visuele en taal kenmerken mogelijk zonder in te leveren op prestaties bij NLP-taken.
CogVLM-17B behaalt state-of-the-art prestaties op 10 klassieke cross-modale benchmarks, waaronder NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA en TDIUC, en staat op de 2e plaats bij VQAv2, OKVQA, TextVQA, COCO captioning, enz., waarbij het PaLI-X 55B overtreft of evenaart.
Code en checkpoints zijn beschikbaar op https://github.com/THUDM/CogVLM.
English
We introduce CogVLM, a powerful open-source visual language foundation model.
Different from the popular shallow alignment method which maps image features
into the input space of language model, CogVLM bridges the gap between the
frozen pretrained language model and image encoder by a trainable visual expert
module in the attention and FFN layers. As a result, CogVLM enables deep fusion
of vision language features without sacrificing any performance on NLP tasks.
CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal
benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+,
RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA and TDIUC, and ranks the 2nd on
VQAv2, OKVQA, TextVQA, COCO captioning, etc., surpassing or matching PaLI-X
55B. Codes and checkpoints are available at https://github.com/THUDM/CogVLM.