Qwen2.5-VL Technisch Rapport
Qwen2.5-VL Technical Report
February 19, 2025
Auteurs: Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin
cs.AI
Samenvatting
We introduceren Qwen2.5-VL, het nieuwste vlaggenschipmodel van de Qwen vision-language serie, dat aanzienlijke vooruitgang boekt in zowel fundamentele mogelijkheden als innovatieve functionaliteiten. Qwen2.5-VL maakt een grote sprong voorwaarts in het begrijpen en interacteren met de wereld door verbeterde visuele herkenning, nauwkeurige objectlokalisatie, robuuste documentparsing en langdurige videocomprehensie. Een opvallende eigenschap van Qwen2.5-VL is zijn vermogen om objecten nauwkeurig te lokaliseren met behulp van bounding boxes of punten. Het biedt robuuste gestructureerde data-extractie van facturen, formulieren en tabellen, evenals gedetailleerde analyse van grafieken, diagrammen en lay-outs. Om complexe inputs te verwerken, introduceert Qwen2.5-VL dynamische resolutieverwerking en absolute tijdcodering, waardoor het beelden van verschillende formaten en video's van langere duur (tot uren) kan verwerken met secondenprecieze gebeurtenislokalisatie. Hierdoor kan het model ruimtelijke schalen en temporele dynamiek intrinsiek waarnemen zonder te vertrouwen op traditionele normalisatietechnieken. Door een native dynamische-resolutie Vision Transformer (ViT) vanaf nul te trainen en Window Attention te integreren, verminderen we de rekenkosten terwijl de native resolutie behouden blijft. Als resultaat blinkt Qwen2.5-VL niet alleen uit in statische beeld- en documentbegrip, maar ook als een interactieve visuele agent die in staat is tot redeneren, gereedschapsgebruik en taakuitvoering in real-world scenario's zoals het bedienen van computers en mobiele apparaten. Qwen2.5-VL is beschikbaar in drie formaten, die diverse use cases adresseren van edge AI tot high-performance computing. Het vlaggenschipmodel Qwen2.5-VL-72B kan wedijveren met state-of-the-art modellen zoals GPT-4o en Claude 3.5 Sonnet, met name uitblinkend in document- en diagrambegrip. Daarnaast behoudt Qwen2.5-VL een robuuste linguïstische prestaties, waarbij de kern taalvaardigheden van de Qwen2.5 LLM behouden blijven.
English
We introduce Qwen2.5-VL, the latest flagship model of Qwen vision-language
series, which demonstrates significant advancements in both foundational
capabilities and innovative functionalities. Qwen2.5-VL achieves a major leap
forward in understanding and interacting with the world through enhanced visual
recognition, precise object localization, robust document parsing, and
long-video comprehension. A standout feature of Qwen2.5-VL is its ability to
localize objects using bounding boxes or points accurately. It provides robust
structured data extraction from invoices, forms, and tables, as well as
detailed analysis of charts, diagrams, and layouts. To handle complex inputs,
Qwen2.5-VL introduces dynamic resolution processing and absolute time encoding,
enabling it to process images of varying sizes and videos of extended durations
(up to hours) with second-level event localization. This allows the model to
natively perceive spatial scales and temporal dynamics without relying on
traditional normalization techniques. By training a native dynamic-resolution
Vision Transformer (ViT) from scratch and incorporating Window Attention, we
reduce computational overhead while maintaining native resolution. As a result,
Qwen2.5-VL excels not only in static image and document understanding but also
as an interactive visual agent capable of reasoning, tool usage, and task
execution in real-world scenarios such as operating computers and mobile
devices. Qwen2.5-VL is available in three sizes, addressing diverse use cases
from edge AI to high-performance computing. The flagship Qwen2.5-VL-72B model
matches state-of-the-art models like GPT-4o and Claude 3.5 Sonnet, particularly
excelling in document and diagram understanding. Additionally, Qwen2.5-VL
maintains robust linguistic performance, preserving the core language
competencies of the Qwen2.5 LLM.Summary
AI-Generated Summary