CogVLM2: Visuelle Sprachmodelle für Bild- und Videoverständnis
CogVLM2: Visual Language Models for Image and Video Understanding
August 29, 2024
papers.authors: Wenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang
cs.AI
papers.abstract
Ausgehend von VisualGLM und CogVLM erforschen wir kontinuierlich Vision-Language-Modelle (VLMs), um eine verbesserte Fusion von Bild und Sprache, effizientere Architekturen für höhere Auflösungen sowie breitere Modalitäten und Anwendungen zu erreichen. Hier präsentieren wir die CogVLM2-Familie, eine neue Generation von visuellen Sprachmodellen für das Verständnis von Bildern und Videos, darunter CogVLM2, CogVLM2-Video und GLM-4V. Als Modell für das Bildverständnis erbt CogVLM2 die Architektur des visuellen Experten mit verbesserten Trainingsmethoden sowohl in der Vor- als auch in der Nachtrainingsphase und unterstützt eine Eingabeauflösung von bis zu 1344 × 1344 Pixeln. Als Modell für das Videoverständnis integriert CogVLM2-Video Mehrfachbild-Eingaben mit Zeitstempeln und schlägt eine automatisierte Konstruktion von temporalen Verankerungsdaten vor. Bemerkenswerterweise hat die CogVLM2-Familie state-of-the-art Ergebnisse auf Benchmarks wie MMBench, MM-Vet, TextVQA, MVBench und VCGBench erzielt. Alle Modelle sind unter https://github.com/THUDM/CogVLM2 und https://github.com/THUDM/GLM-4 quelloffen verfügbar und tragen so zur Weiterentwicklung des Feldes bei.
English
Beginning with VisualGLM and CogVLM, we are continuously exploring VLMs in
pursuit of enhanced vision-language fusion, efficient higher-resolution
architecture, and broader modalities and applications. Here we propose the
CogVLM2 family, a new generation of visual language models for image and video
understanding including CogVLM2, CogVLM2-Video and GLM-4V. As an image
understanding model, CogVLM2 inherits the visual expert architecture with
improved training recipes in both pre-training and post-training stages,
supporting input resolution up to 1344 times 1344 pixels. As a video
understanding model, CogVLM2-Video integrates multi-frame input with timestamps
and proposes automated temporal grounding data construction. Notably, CogVLM2
family has achieved state-of-the-art results on benchmarks like MMBench,
MM-Vet, TextVQA, MVBench and VCGBench. All models are open-sourced in
https://github.com/THUDM/CogVLM2 and https://github.com/THUDM/GLM-4,
contributing to the advancement of the field.