ChatPaper.aiChatPaper

CogVLM2: Visuele Taalmodellen voor het Begrijpen van Beelden en Video's

CogVLM2: Visual Language Models for Image and Video Understanding

August 29, 2024
Auteurs: Wenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang
cs.AI

Samenvatting

Vanuit VisualGLM en CogVLM verkennen we continu Visueel-Taalmodellen (VLM's) met als doel verbeterde visueel-taalintegratie, efficiënte architectuur voor hogere resoluties, en bredere modaliteiten en toepassingen. Hier presenteren we de CogVLM2-familie, een nieuwe generatie visueel-taalmodellen voor beeld- en videobegrip, bestaande uit CogVLM2, CogVLM2-Video en GLM-4V. Als beeldbegripsmodel erft CogVLM2 de visuele expertarchitectuur met verbeterde trainingsmethoden in zowel pre-training als post-training, en ondersteunt het een invoerresolutie tot 1344 × 1344 pixels. Als videobegripsmodel integreert CogVLM2-Video meerdere frames met tijdstempels en introduceert het geautomatiseerde constructie van temporele ankergegevens. Opmerkelijk is dat de CogVLM2-familie state-of-the-art resultaten heeft behaald op benchmarks zoals MMBench, MM-Vet, TextVQA, MVBench en VCGBench. Alle modellen zijn open-source beschikbaar op https://github.com/THUDM/CogVLM2 en https://github.com/THUDM/GLM-4, wat bijdraagt aan de vooruitgang van het vakgebied.
English
Beginning with VisualGLM and CogVLM, we are continuously exploring VLMs in pursuit of enhanced vision-language fusion, efficient higher-resolution architecture, and broader modalities and applications. Here we propose the CogVLM2 family, a new generation of visual language models for image and video understanding including CogVLM2, CogVLM2-Video and GLM-4V. As an image understanding model, CogVLM2 inherits the visual expert architecture with improved training recipes in both pre-training and post-training stages, supporting input resolution up to 1344 times 1344 pixels. As a video understanding model, CogVLM2-Video integrates multi-frame input with timestamps and proposes automated temporal grounding data construction. Notably, CogVLM2 family has achieved state-of-the-art results on benchmarks like MMBench, MM-Vet, TextVQA, MVBench and VCGBench. All models are open-sourced in https://github.com/THUDM/CogVLM2 and https://github.com/THUDM/GLM-4, contributing to the advancement of the field.
PDF575November 14, 2024