ChatPaper.aiChatPaper

Qwen2-VL: Улучшение восприятия мира моделью вид-язык при любом разрешении

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

September 18, 2024
Авторы: Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin
cs.AI

Аннотация

Мы представляем серию Qwen2-VL, передовое обновление предыдущих моделей Qwen-VL, которое переопределяет традиционный подход к обработке изображений с заранее заданным разрешением. Qwen2-VL вводит механизм Наивной Динамической Разрешимости, позволяющий модели динамически обрабатывать изображения с различными разрешениями на разное количество визуальных токенов. Этот подход позволяет модели генерировать более эффективные и точные визуальные представления, тесно соответствуя человеческим восприятиям. Модель также интегрирует Мультимодальное Вращающееся Позиционное Внедрение (M-RoPE), облегчая эффективное слияние информации о позиции в тексте, изображениях и видео. Мы используем унифицированную парадигму для обработки как изображений, так и видео, улучшая визуальные способности модели. Для изучения потенциала крупных мультимодальных моделей, Qwen2-VL исследует законы масштабирования для крупных моделей видео-языка (LVLM). Масштабируя как размер модели - с версиями на 2B, 8B и 72B параметров, так и объем обучающих данных, серия Qwen2-VL достигает высокой конкурентоспособной производительности. Заметно, что модель Qwen2-VL-72B достигает результатов, сравнимых с ведущими моделями, такими как GPT-4o и Claude3.5-Sonnet, на различных мультимодальных бенчмарках, превосходя другие общие модели. Код доступен по ссылке https://github.com/QwenLM/Qwen2-VL.
English
We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL models that redefines the conventional predetermined-resolution approach in visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism, which enables the model to dynamically process images of varying resolutions into different numbers of visual tokens. This approach allows the model to generate more efficient and accurate visual representations, closely aligning with human perceptual processes. The model also integrates Multimodal Rotary Position Embedding (M-RoPE), facilitating the effective fusion of positional information across text, images, and videos. We employ a unified paradigm for processing both images and videos, enhancing the model's visual perception capabilities. To explore the potential of large multimodal models, Qwen2-VL investigates the scaling laws for large vision-language models (LVLMs). By scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the amount of training data, the Qwen2-VL Series achieves highly competitive performance. Notably, the Qwen2-VL-72B model achieves results comparable to leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal benchmarks, outperforming other generalist models. Code is available at https://github.com/QwenLM/Qwen2-VL.

Summary

AI-Generated Summary

PDF784November 16, 2024