Rapport Technique de Qwen2.5-VL
Qwen2.5-VL Technical Report
February 19, 2025
Auteurs: Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin
cs.AI
Résumé
Nous présentons Qwen2.5-VL, le dernier modèle phare de la série vision-langage Qwen, qui démontre des avancées significatives tant dans ses capacités fondamentales que dans ses fonctionnalités innovantes. Qwen2.5-VL réalise un bond majeur dans la compréhension et l'interaction avec le monde grâce à une reconnaissance visuelle améliorée, une localisation précise des objets, une analyse robuste de documents et une compréhension de vidéos longues. Une caractéristique remarquable de Qwen2.5-VL est sa capacité à localiser des objets avec précision en utilisant des boîtes englobantes ou des points. Il offre une extraction robuste de données structurées à partir de factures, formulaires et tableaux, ainsi qu'une analyse détaillée de graphiques, diagrammes et mises en page. Pour gérer des entrées complexes, Qwen2.5-VL introduit un traitement dynamique de la résolution et un encodage temporel absolu, lui permettant de traiter des images de tailles variées et des vidéos de longue durée (jusqu'à plusieurs heures) avec une localisation d'événements au niveau de la seconde. Cela permet au modèle de percevoir nativement les échelles spatiales et les dynamiques temporelles sans recourir à des techniques de normalisation traditionnelles. En entraînant un Vision Transformer (ViT) à résolution dynamique native dès le départ et en intégrant l'attention par fenêtre, nous réduisons la surcharge computationnelle tout en conservant la résolution native. En conséquence, Qwen2.5-VL excelle non seulement dans la compréhension d'images et de documents statiques, mais aussi en tant qu'agent visuel interactif capable de raisonner, d'utiliser des outils et d'exécuter des tâches dans des scénarios réels tels que l'utilisation d'ordinateurs et d'appareils mobiles. Qwen2.5-VL est disponible en trois tailles, répondant à divers cas d'utilisation, de l'IA embarquée au calcul haute performance. Le modèle phare Qwen2.5-VL-72B rivalise avec les modèles de pointe comme GPT-4o et Claude 3.5 Sonnet, excellant particulièrement dans la compréhension de documents et de diagrammes. De plus, Qwen2.5-VL maintient une performance linguistique robuste, préservant les compétences linguistiques fondamentales du LLM Qwen2.5.
English
We introduce Qwen2.5-VL, the latest flagship model of Qwen vision-language
series, which demonstrates significant advancements in both foundational
capabilities and innovative functionalities. Qwen2.5-VL achieves a major leap
forward in understanding and interacting with the world through enhanced visual
recognition, precise object localization, robust document parsing, and
long-video comprehension. A standout feature of Qwen2.5-VL is its ability to
localize objects using bounding boxes or points accurately. It provides robust
structured data extraction from invoices, forms, and tables, as well as
detailed analysis of charts, diagrams, and layouts. To handle complex inputs,
Qwen2.5-VL introduces dynamic resolution processing and absolute time encoding,
enabling it to process images of varying sizes and videos of extended durations
(up to hours) with second-level event localization. This allows the model to
natively perceive spatial scales and temporal dynamics without relying on
traditional normalization techniques. By training a native dynamic-resolution
Vision Transformer (ViT) from scratch and incorporating Window Attention, we
reduce computational overhead while maintaining native resolution. As a result,
Qwen2.5-VL excels not only in static image and document understanding but also
as an interactive visual agent capable of reasoning, tool usage, and task
execution in real-world scenarios such as operating computers and mobile
devices. Qwen2.5-VL is available in three sizes, addressing diverse use cases
from edge AI to high-performance computing. The flagship Qwen2.5-VL-72B model
matches state-of-the-art models like GPT-4o and Claude 3.5 Sonnet, particularly
excelling in document and diagram understanding. Additionally, Qwen2.5-VL
maintains robust linguistic performance, preserving the core language
competencies of the Qwen2.5 LLM.Summary
AI-Generated Summary