ChatPaper.aiChatPaper

Qwen2.5-VL Technischer Bericht

Qwen2.5-VL Technical Report

February 19, 2025
Autoren: Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin
cs.AI

Zusammenfassung

Wir stellen Qwen2.5-VL vor, das neueste Flaggschiffmodell der Qwen Vision-Language-Serie, das bedeutende Fortschritte sowohl in den grundlegenden Fähigkeiten als auch in innovativen Funktionalitäten demonstriert. Qwen2.5-VL macht einen großen Sprung nach vorn im Verständnis und der Interaktion mit der Welt durch verbesserte visuelle Erkennung, präzise Objektlokalisierung, robuste Dokumentenanalyse und Langzeit-Videoverständnis. Ein herausragendes Merkmal von Qwen2.5-VL ist seine Fähigkeit, Objekte mithilfe von Begrenzungsrahmen oder Punkten genau zu lokalisieren. Es bietet eine robuste Extraktion strukturierter Daten aus Rechnungen, Formularen und Tabellen sowie eine detaillierte Analyse von Diagrammen, Grafiken und Layouts. Um komplexe Eingaben zu verarbeiten, führt Qwen2.5-VL dynamische Auflösungsverarbeitung und absolute Zeitcodierung ein, wodurch es Bilder unterschiedlicher Größen und Videos mit langer Laufzeit (bis zu Stunden) mit sekundengenauer Ereignislokalisierung verarbeiten kann. Dies ermöglicht es dem Modell, räumliche Skalen und zeitliche Dynamiken nativ wahrzunehmen, ohne auf traditionelle Normalisierungstechniken angewiesen zu sein. Durch das Training eines nativen dynamischen Auflösungs-Vision Transformers (ViT) von Grund auf und die Einbindung von Window Attention reduzieren wir den Rechenaufwand bei Beibehaltung der nativen Auflösung. Infolgedessen zeichnet sich Qwen2.5-VL nicht nur im Verständnis statischer Bilder und Dokumente aus, sondern auch als interaktiver visueller Agent, der in der Lage ist, in realen Szenarien wie dem Betrieb von Computern und Mobilgeräten zu schlussfolgern, Werkzeuge zu nutzen und Aufgaben auszuführen. Qwen2.5-VL ist in drei Größen verfügbar, die verschiedene Anwendungsfälle von Edge AI bis hin zu Hochleistungsrechnen abdecken. Das Flaggschiffmodell Qwen2.5-VL-72B erreicht das Niveau von State-of-the-Art-Modellen wie GPT-4o und Claude 3.5 Sonnet, insbesondere im Verständnis von Dokumenten und Diagrammen. Darüber hinaus behält Qwen2.5-VL eine robuste sprachliche Leistungsfähigkeit bei und bewahrt die Kernkompetenzen des Qwen2.5 LLM.
English
We introduce Qwen2.5-VL, the latest flagship model of Qwen vision-language series, which demonstrates significant advancements in both foundational capabilities and innovative functionalities. Qwen2.5-VL achieves a major leap forward in understanding and interacting with the world through enhanced visual recognition, precise object localization, robust document parsing, and long-video comprehension. A standout feature of Qwen2.5-VL is its ability to localize objects using bounding boxes or points accurately. It provides robust structured data extraction from invoices, forms, and tables, as well as detailed analysis of charts, diagrams, and layouts. To handle complex inputs, Qwen2.5-VL introduces dynamic resolution processing and absolute time encoding, enabling it to process images of varying sizes and videos of extended durations (up to hours) with second-level event localization. This allows the model to natively perceive spatial scales and temporal dynamics without relying on traditional normalization techniques. By training a native dynamic-resolution Vision Transformer (ViT) from scratch and incorporating Window Attention, we reduce computational overhead while maintaining native resolution. As a result, Qwen2.5-VL excels not only in static image and document understanding but also as an interactive visual agent capable of reasoning, tool usage, and task execution in real-world scenarios such as operating computers and mobile devices. Qwen2.5-VL is available in three sizes, addressing diverse use cases from edge AI to high-performance computing. The flagship Qwen2.5-VL-72B model matches state-of-the-art models like GPT-4o and Claude 3.5 Sonnet, particularly excelling in document and diagram understanding. Additionally, Qwen2.5-VL maintains robust linguistic performance, preserving the core language competencies of the Qwen2.5 LLM.

Summary

AI-Generated Summary

PDF1847February 20, 2025