CogVLM: Visuele Expert voor Voorgetrainde Taalmodellen

Samenvatting

We introduceren CogVLM, een krachtig open-source visueel taal fundamentmodel. In tegenstelling tot de populaire methode van oppervlakkige afstemming, waarbij beeldkenmerken worden toegewezen aan de invoerruimte van het taalmodel, overbrugt CogVLM de kloof tussen het bevroren voorgetrainde taalmodel en de beeldencoder door middel van een trainbare visuele expertmodule in de aandacht- en FFN-lagen. Hierdoor maakt CogVLM een diepe fusie van visuele en taal kenmerken mogelijk zonder in te leveren op prestaties bij NLP-taken. CogVLM-17B behaalt state-of-the-art prestaties op 10 klassieke cross-modale benchmarks, waaronder NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA en TDIUC, en staat op de 2e plaats bij VQAv2, OKVQA, TextVQA, COCO captioning, enz., waarbij het PaLI-X 55B overtreft of evenaart. Code en checkpoints zijn beschikbaar op https://github.com/THUDM/CogVLM.

English

We introduce CogVLM, a powerful open-source visual language foundation model. Different from the popular shallow alignment method which maps image features into the input space of language model, CogVLM bridges the gap between the frozen pretrained language model and image encoder by a trainable visual expert module in the attention and FFN layers. As a result, CogVLM enables deep fusion of vision language features without sacrificing any performance on NLP tasks. CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA and TDIUC, and ranks the 2nd on VQAv2, OKVQA, TextVQA, COCO captioning, etc., surpassing or matching PaLI-X 55B. Codes and checkpoints are available at https://github.com/THUDM/CogVLM.

CogVLM: Visuele Expert voor Voorgetrainde Taalmodellen

CogVLM: Visual Expert for Pretrained Language Models

Samenvatting

Support