ChatPaper.aiChatPaper

Qwen2-VL : Améliorer la perception du monde par le modèle Vision-Language à n'importe quelle résolution

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

September 18, 2024
Auteurs: Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin
cs.AI

Résumé

Nous présentons la série Qwen2-VL, une mise à niveau avancée des modèles précédents Qwen-VL qui redéfinit l'approche conventionnelle de résolution prédéterminée dans le traitement visuel. Qwen2-VL introduit le mécanisme de Résolution Dynamique Naïve, qui permet au modèle de traiter dynamiquement des images de résolutions variables en différents nombres de jetons visuels. Cette approche permet au modèle de générer des représentations visuelles plus efficaces et précises, se rapprochant étroitement des processus perceptifs humains. Le modèle intègre également l'Incorporation de Position Rotative Multimodale (M-RoPE), facilitant la fusion efficace des informations de position à travers le texte, les images et les vidéos. Nous utilisons un paradigme unifié pour traiter à la fois les images et les vidéos, améliorant les capacités de perception visuelle du modèle. Pour explorer le potentiel des grands modèles multimodaux, Qwen2-VL étudie les lois d'échelle pour les grands modèles vision-langage (LVLMs). En mettant à l'échelle à la fois la taille du modèle - avec des versions à 2B, 8B et 72B de paramètres - et la quantité de données d'entraînement, la série Qwen2-VL atteint des performances hautement compétitives. Notamment, le modèle Qwen2-VL-72B obtient des résultats comparables à des modèles de premier plan tels que GPT-4o et Claude3.5-Sonnet sur divers benchmarks multimodaux, surpassant d'autres modèles généralistes. Le code est disponible sur https://github.com/QwenLM/Qwen2-VL.
English
We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL models that redefines the conventional predetermined-resolution approach in visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism, which enables the model to dynamically process images of varying resolutions into different numbers of visual tokens. This approach allows the model to generate more efficient and accurate visual representations, closely aligning with human perceptual processes. The model also integrates Multimodal Rotary Position Embedding (M-RoPE), facilitating the effective fusion of positional information across text, images, and videos. We employ a unified paradigm for processing both images and videos, enhancing the model's visual perception capabilities. To explore the potential of large multimodal models, Qwen2-VL investigates the scaling laws for large vision-language models (LVLMs). By scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the amount of training data, the Qwen2-VL Series achieves highly competitive performance. Notably, the Qwen2-VL-72B model achieves results comparable to leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal benchmarks, outperforming other generalist models. Code is available at https://github.com/QwenLM/Qwen2-VL.

Summary

AI-Generated Summary

PDF784November 16, 2024