Rapporto Tecnico di Qwen2.5-VLQwen2.5-VL Technical Report
Presentiamo Qwen2.5-VL, il modello di punta più recente della serie vision-language di Qwen, che dimostra significativi progressi sia nelle capacità fondamentali che nelle funzionalità innovative. Qwen2.5-VL compie un importante balzo in avanti nella comprensione e interazione con il mondo attraverso un migliorato riconoscimento visivo, una precisa localizzazione degli oggetti, un robusto parsing di documenti e una comprensione di video di lunga durata. Una caratteristica distintiva di Qwen2.5-VL è la sua capacità di localizzare oggetti utilizzando bounding box o punti in modo accurato. Offre un'estrazione robusta di dati strutturati da fatture, moduli e tabelle, nonché un'analisi dettagliata di grafici, diagrammi e layout. Per gestire input complessi, Qwen2.5-VL introduce l'elaborazione a risoluzione dinamica e la codifica temporale assoluta, consentendogli di elaborare immagini di dimensioni variabili e video di durata estesa (fino a ore) con localizzazione di eventi a livello di secondo. Ciò permette al modello di percepire nativamente le scale spaziali e le dinamiche temporali senza fare affidamento su tecniche di normalizzazione tradizionali. Addestrando un Vision Transformer (ViT) a risoluzione dinamica nativa da zero e incorporando la Window Attention, riduciamo il sovraccarico computazionale mantenendo la risoluzione nativa. Di conseguenza, Qwen2.5-VL eccelle non solo nella comprensione di immagini statiche e documenti, ma anche come agente visivo interattivo capace di ragionamento, utilizzo di strumenti ed esecuzione di compiti in scenari reali come l'operazione di computer e dispositivi mobili. Qwen2.5-VL è disponibile in tre dimensioni, affrontando casi d'uso diversi dall'AI edge all'high-performance computing. Il modello di punta Qwen2.5-VL-72B eguaglia i modelli all'avanguardia come GPT-4o e Claude 3.5 Sonnet, eccellendo in particolare nella comprensione di documenti e diagrammi. Inoltre, Qwen2.5-VL mantiene una robusta performance linguistica, preservando le competenze linguistiche fondamentali del Qwen2.5 LLM.