CogVLM2: 이미지 및 비디오 이해를 위한 시각 언어 모델
CogVLM2: Visual Language Models for Image and Video Understanding
August 29, 2024
저자: Wenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang
cs.AI
초록
VisualGLM과 CogVLM을 시작으로, 우리는 향상된 시각-언어 융합, 효율적인 고해상도 아키텍처, 그리고 더 넓은 모달리티와 응용 분야를 추구하며 지속적으로 VLM(Vision-Language Model)을 탐구하고 있습니다. 여기서 우리는 이미지와 비디오 이해를 위한 새로운 세대의 시각 언어 모델인 CogVLM2 패밀리(CogVLM2, CogVLM2-Video, GLM-4V)를 제안합니다. 이미지 이해 모델로서, CogVLM2는 시각 전문가 아키텍처를 계승하며 사전 학습과 사후 학습 단계에서 개선된 훈련 방법을 도입하여 최대 1344×1344 픽셀의 입력 해상도를 지원합니다. 비디오 이해 모델로서, CogVLM2-Video는 타임스탬프와 함께 다중 프레임 입력을 통합하고 자동화된 시간적 그라운딩 데이터 구성을 제안합니다. 특히, CogVLM2 패밀리는 MMBench, MM-Vet, TextVQA, MVBench, VCGBench 등의 벤치마크에서 최첨단 성과를 달성했습니다. 모든 모델은 https://github.com/THUDM/CogVLM2와 https://github.com/THUDM/GLM-4에서 오픈소스로 제공되어 해당 분야의 발전에 기여하고 있습니다.
English
Beginning with VisualGLM and CogVLM, we are continuously exploring VLMs in
pursuit of enhanced vision-language fusion, efficient higher-resolution
architecture, and broader modalities and applications. Here we propose the
CogVLM2 family, a new generation of visual language models for image and video
understanding including CogVLM2, CogVLM2-Video and GLM-4V. As an image
understanding model, CogVLM2 inherits the visual expert architecture with
improved training recipes in both pre-training and post-training stages,
supporting input resolution up to 1344 times 1344 pixels. As a video
understanding model, CogVLM2-Video integrates multi-frame input with timestamps
and proposes automated temporal grounding data construction. Notably, CogVLM2
family has achieved state-of-the-art results on benchmarks like MMBench,
MM-Vet, TextVQA, MVBench and VCGBench. All models are open-sourced in
https://github.com/THUDM/CogVLM2 and https://github.com/THUDM/GLM-4,
contributing to the advancement of the field.