ChatPaper.aiChatPaper

CogVLM2: Modelos de Lenguaje Visual para la Comprensión de Imágenes y Videos

CogVLM2: Visual Language Models for Image and Video Understanding

August 29, 2024
Autores: Wenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang
cs.AI

Resumen

Comenzando con VisualGLM y CogVLM, hemos estado explorando continuamente los modelos de lenguaje visual (VLMs) en busca de una mejor fusión visión-lenguaje, arquitecturas eficientes de mayor resolución y modalidades y aplicaciones más amplias. Aquí presentamos la familia CogVLM2, una nueva generación de modelos de lenguaje visual para la comprensión de imágenes y videos, que incluye CogVLM2, CogVLM2-Video y GLM-4V. Como modelo de comprensión de imágenes, CogVLM2 hereda la arquitectura de experto visual con mejoras en las recetas de entrenamiento tanto en las etapas de preentrenamiento como de posentrenamiento, soportando una resolución de entrada de hasta 1344 x 1344 píxeles. Como modelo de comprensión de videos, CogVLM2-Video integra entradas de múltiples fotogramas con marcas de tiempo y propone una construcción automatizada de datos de anclaje temporal. Cabe destacar que la familia CogVLM2 ha logrado resultados de vanguardia en benchmarks como MMBench, MM-Vet, TextVQA, MVBench y VCGBench. Todos los modelos están disponibles en código abierto en https://github.com/THUDM/CogVLM2 y https://github.com/THUDM/GLM-4, contribuyendo así al avance del campo.
English
Beginning with VisualGLM and CogVLM, we are continuously exploring VLMs in pursuit of enhanced vision-language fusion, efficient higher-resolution architecture, and broader modalities and applications. Here we propose the CogVLM2 family, a new generation of visual language models for image and video understanding including CogVLM2, CogVLM2-Video and GLM-4V. As an image understanding model, CogVLM2 inherits the visual expert architecture with improved training recipes in both pre-training and post-training stages, supporting input resolution up to 1344 times 1344 pixels. As a video understanding model, CogVLM2-Video integrates multi-frame input with timestamps and proposes automated temporal grounding data construction. Notably, CogVLM2 family has achieved state-of-the-art results on benchmarks like MMBench, MM-Vet, TextVQA, MVBench and VCGBench. All models are open-sourced in https://github.com/THUDM/CogVLM2 and https://github.com/THUDM/GLM-4, contributing to the advancement of the field.
PDF575November 14, 2024