CogVLM2: 画像と動画理解のための視覚言語モデル
CogVLM2: Visual Language Models for Image and Video Understanding
August 29, 2024
著者: Wenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang
cs.AI
要旨
VisualGLMとCogVLMを起点として、私たちは視覚と言語の融合の強化、高解像度アーキテクチャの効率化、そしてより広範なモダリティとアプリケーションを追求し続けています。ここでは、画像と動画の理解のための新世代の視覚言語モデルであるCogVLM2ファミリーを提案します。これにはCogVLM2、CogVLM2-Video、およびGLM-4Vが含まれます。画像理解モデルとして、CogVLM2は視覚エキスパートアーキテクチャを継承し、事前学習と事後学習の両段階で改善されたトレーニングレシピを採用し、最大1344×1344ピクセルの入力解像度をサポートします。動画理解モデルとして、CogVLM2-Videoはタイムスタンプ付きのマルチフレーム入力を統合し、自動化された時間的グラウンディングデータ構築を提案します。特に、CogVLM2ファミリーはMMBench、MM-Vet、TextVQA、MVBench、VCGBenchなどのベンチマークで最先端の結果を達成しました。すべてのモデルはhttps://github.com/THUDM/CogVLM2およびhttps://github.com/THUDM/GLM-4でオープンソース化されており、この分野の進展に貢献しています。
English
Beginning with VisualGLM and CogVLM, we are continuously exploring VLMs in
pursuit of enhanced vision-language fusion, efficient higher-resolution
architecture, and broader modalities and applications. Here we propose the
CogVLM2 family, a new generation of visual language models for image and video
understanding including CogVLM2, CogVLM2-Video and GLM-4V. As an image
understanding model, CogVLM2 inherits the visual expert architecture with
improved training recipes in both pre-training and post-training stages,
supporting input resolution up to 1344 times 1344 pixels. As a video
understanding model, CogVLM2-Video integrates multi-frame input with timestamps
and proposes automated temporal grounding data construction. Notably, CogVLM2
family has achieved state-of-the-art results on benchmarks like MMBench,
MM-Vet, TextVQA, MVBench and VCGBench. All models are open-sourced in
https://github.com/THUDM/CogVLM2 and https://github.com/THUDM/GLM-4,
contributing to the advancement of the field.