ChatPaper.aiChatPaper

Qwen2-VL: Miglioramento della percezione del mondo del modello visione-linguaggio a qualsiasi risoluzione

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

September 18, 2024
Autori: Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin
cs.AI

Abstract

Presentiamo la Serie Qwen2-VL, un avanzato aggiornamento dei modelli precedenti Qwen-VL che ridefinisce l'approccio convenzionale a risoluzione predeterminata nel trattamento visivo. Qwen2-VL introduce il meccanismo di Risoluzione Dinamica Naive, che consente al modello di elaborare dinamicamente immagini di diverse risoluzioni in diversi numeri di token visivi. Questo approccio consente al modello di generare rappresentazioni visive più efficienti e accurate, allineandosi strettamente ai processi percettivi umani. Il modello integra anche l'Incorporamento Posizionale Rotante Multimodale (M-RoPE), facilitando la fusione efficace delle informazioni posizionali tra testo, immagini e video. Utilizziamo un paradigma unificato per elaborare sia immagini che video, potenziando le capacità di percezione visiva del modello. Per esplorare il potenziale dei grandi modelli multimodali, Qwen2-VL studia le leggi di scala per i grandi modelli visione-linguaggio (LVLMs). Scalando sia la dimensione del modello - con versioni a 2B, 8B e 72B parametri - sia la quantità di dati di addestramento, la Serie Qwen2-VL raggiunge prestazioni altamente competitive. In particolare, il modello Qwen2-VL-72B ottiene risultati paragonabili ai modelli leader come GPT-4o e Claude3.5-Sonnet su vari benchmark multimodali, superando altri modelli generalisti. Il codice è disponibile su https://github.com/QwenLM/Qwen2-VL.
English
We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL models that redefines the conventional predetermined-resolution approach in visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism, which enables the model to dynamically process images of varying resolutions into different numbers of visual tokens. This approach allows the model to generate more efficient and accurate visual representations, closely aligning with human perceptual processes. The model also integrates Multimodal Rotary Position Embedding (M-RoPE), facilitating the effective fusion of positional information across text, images, and videos. We employ a unified paradigm for processing both images and videos, enhancing the model's visual perception capabilities. To explore the potential of large multimodal models, Qwen2-VL investigates the scaling laws for large vision-language models (LVLMs). By scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the amount of training data, the Qwen2-VL Series achieves highly competitive performance. Notably, the Qwen2-VL-72B model achieves results comparable to leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal benchmarks, outperforming other generalist models. Code is available at https://github.com/QwenLM/Qwen2-VL.

Summary

AI-Generated Summary

PDF784November 16, 2024