Rapporto Tecnico di Qwen2.5-VL
Qwen2.5-VL Technical Report
February 19, 2025
Autori: Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin
cs.AI
Abstract
Presentiamo Qwen2.5-VL, il modello di punta più recente della serie vision-language di Qwen, che dimostra significativi progressi sia nelle capacità fondamentali che nelle funzionalità innovative. Qwen2.5-VL compie un importante balzo in avanti nella comprensione e interazione con il mondo attraverso un migliorato riconoscimento visivo, una precisa localizzazione degli oggetti, un robusto parsing di documenti e una comprensione di video di lunga durata. Una caratteristica distintiva di Qwen2.5-VL è la sua capacità di localizzare oggetti utilizzando bounding box o punti in modo accurato. Offre un'estrazione robusta di dati strutturati da fatture, moduli e tabelle, nonché un'analisi dettagliata di grafici, diagrammi e layout. Per gestire input complessi, Qwen2.5-VL introduce l'elaborazione a risoluzione dinamica e la codifica temporale assoluta, consentendogli di elaborare immagini di dimensioni variabili e video di durata estesa (fino a ore) con localizzazione di eventi a livello di secondo. Ciò permette al modello di percepire nativamente le scale spaziali e le dinamiche temporali senza fare affidamento su tecniche di normalizzazione tradizionali. Addestrando un Vision Transformer (ViT) a risoluzione dinamica nativa da zero e incorporando la Window Attention, riduciamo il sovraccarico computazionale mantenendo la risoluzione nativa. Di conseguenza, Qwen2.5-VL eccelle non solo nella comprensione di immagini statiche e documenti, ma anche come agente visivo interattivo capace di ragionamento, utilizzo di strumenti ed esecuzione di compiti in scenari reali come l'operazione di computer e dispositivi mobili. Qwen2.5-VL è disponibile in tre dimensioni, affrontando casi d'uso diversi dall'AI edge all'high-performance computing. Il modello di punta Qwen2.5-VL-72B eguaglia i modelli all'avanguardia come GPT-4o e Claude 3.5 Sonnet, eccellendo in particolare nella comprensione di documenti e diagrammi. Inoltre, Qwen2.5-VL mantiene una robusta performance linguistica, preservando le competenze linguistiche fondamentali del Qwen2.5 LLM.
English
We introduce Qwen2.5-VL, the latest flagship model of Qwen vision-language
series, which demonstrates significant advancements in both foundational
capabilities and innovative functionalities. Qwen2.5-VL achieves a major leap
forward in understanding and interacting with the world through enhanced visual
recognition, precise object localization, robust document parsing, and
long-video comprehension. A standout feature of Qwen2.5-VL is its ability to
localize objects using bounding boxes or points accurately. It provides robust
structured data extraction from invoices, forms, and tables, as well as
detailed analysis of charts, diagrams, and layouts. To handle complex inputs,
Qwen2.5-VL introduces dynamic resolution processing and absolute time encoding,
enabling it to process images of varying sizes and videos of extended durations
(up to hours) with second-level event localization. This allows the model to
natively perceive spatial scales and temporal dynamics without relying on
traditional normalization techniques. By training a native dynamic-resolution
Vision Transformer (ViT) from scratch and incorporating Window Attention, we
reduce computational overhead while maintaining native resolution. As a result,
Qwen2.5-VL excels not only in static image and document understanding but also
as an interactive visual agent capable of reasoning, tool usage, and task
execution in real-world scenarios such as operating computers and mobile
devices. Qwen2.5-VL is available in three sizes, addressing diverse use cases
from edge AI to high-performance computing. The flagship Qwen2.5-VL-72B model
matches state-of-the-art models like GPT-4o and Claude 3.5 Sonnet, particularly
excelling in document and diagram understanding. Additionally, Qwen2.5-VL
maintains robust linguistic performance, preserving the core language
competencies of the Qwen2.5 LLM.Summary
AI-Generated Summary