CogVLM2: Modelli Linguistici Visivi per la Comprensione di Immagini e Video

Abstract

A partire da VisualGLM e CogVLM, abbiamo continuato a esplorare i modelli linguistico-visivi (VLM) perseguendo una migliore fusione visione-linguaggio, architetture efficienti per risoluzioni più elevate e modalità e applicazioni più ampie. Qui proponiamo la famiglia CogVLM2, una nuova generazione di modelli linguistico-visivi per la comprensione di immagini e video, che include CogVLM2, CogVLM2-Video e GLM-4V. Come modello per la comprensione delle immagini, CogVLM2 eredita l'architettura Visual Expert con ricette di addestramento migliorate sia nella fase di pre-training che di post-training, supportando una risoluzione di input fino a 1344x1344 pixel. Come modello per la comprensione video, CogVLM2-Video integra l'input multi-frame con timestamp e propone una costruzione automatizzata di dati per il temporal grounding. Degno di nota, la famiglia CogVLM2 ha ottenuto risultati all'avanguardia su benchmark come MMBench, MM-Vet, TextVQA, MVBench e VCGBench. Tutti i modelli sono open-source su https://github.com/THUDM/CogVLM2 e https://github.com/THUDM/GLM-4, contribuendo così al progresso del settore.

English

Beginning with VisualGLM and CogVLM, we are continuously exploring VLMs in pursuit of enhanced vision-language fusion, efficient higher-resolution architecture, and broader modalities and applications. Here we propose the CogVLM2 family, a new generation of visual language models for image and video understanding including CogVLM2, CogVLM2-Video and GLM-4V. As an image understanding model, CogVLM2 inherits the visual expert architecture with improved training recipes in both pre-training and post-training stages, supporting input resolution up to 1344 times 1344 pixels. As a video understanding model, CogVLM2-Video integrates multi-frame input with timestamps and proposes automated temporal grounding data construction. Notably, CogVLM2 family has achieved state-of-the-art results on benchmarks like MMBench, MM-Vet, TextVQA, MVBench and VCGBench. All models are open-sourced in https://github.com/THUDM/CogVLM2 and https://github.com/THUDM/GLM-4, contributing to the advancement of the field.

CogVLM2: Modelli Linguistici Visivi per la Comprensione di Immagini e Video

CogVLM2: Visual Language Models for Image and Video Understanding

Abstract

Support