ChatPaper.aiChatPaper

CogVLM2: Modelli Linguistici Visivi per la Comprensione di Immagini e Video

CogVLM2: Visual Language Models for Image and Video Understanding

August 29, 2024
Autori: Wenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang
cs.AI

Abstract

A partire da VisualGLM e CogVLM, abbiamo continuato a esplorare i modelli linguistico-visivi (VLM) perseguendo una migliore fusione visione-linguaggio, architetture efficienti per risoluzioni più elevate e modalità e applicazioni più ampie. Qui proponiamo la famiglia CogVLM2, una nuova generazione di modelli linguistico-visivi per la comprensione di immagini e video, che include CogVLM2, CogVLM2-Video e GLM-4V. Come modello per la comprensione delle immagini, CogVLM2 eredita l'architettura Visual Expert con ricette di addestramento migliorate sia nella fase di pre-training che di post-training, supportando una risoluzione di input fino a 1344x1344 pixel. Come modello per la comprensione video, CogVLM2-Video integra l'input multi-frame con timestamp e propone una costruzione automatizzata di dati per il temporal grounding. Degno di nota, la famiglia CogVLM2 ha ottenuto risultati all'avanguardia su benchmark come MMBench, MM-Vet, TextVQA, MVBench e VCGBench. Tutti i modelli sono open-source su https://github.com/THUDM/CogVLM2 e https://github.com/THUDM/GLM-4, contribuendo così al progresso del settore.
English
Beginning with VisualGLM and CogVLM, we are continuously exploring VLMs in pursuit of enhanced vision-language fusion, efficient higher-resolution architecture, and broader modalities and applications. Here we propose the CogVLM2 family, a new generation of visual language models for image and video understanding including CogVLM2, CogVLM2-Video and GLM-4V. As an image understanding model, CogVLM2 inherits the visual expert architecture with improved training recipes in both pre-training and post-training stages, supporting input resolution up to 1344 times 1344 pixels. As a video understanding model, CogVLM2-Video integrates multi-frame input with timestamps and proposes automated temporal grounding data construction. Notably, CogVLM2 family has achieved state-of-the-art results on benchmarks like MMBench, MM-Vet, TextVQA, MVBench and VCGBench. All models are open-sourced in https://github.com/THUDM/CogVLM2 and https://github.com/THUDM/GLM-4, contributing to the advancement of the field.
PDF575November 14, 2024