Qwen2.5-VL Technisch Rapport

Samenvatting

We introduceren Qwen2.5-VL, het nieuwste vlaggenschipmodel van de Qwen vision-language serie, dat aanzienlijke vooruitgang boekt in zowel fundamentele mogelijkheden als innovatieve functionaliteiten. Qwen2.5-VL maakt een grote sprong voorwaarts in het begrijpen en interacteren met de wereld door verbeterde visuele herkenning, nauwkeurige objectlokalisatie, robuuste documentparsing en langdurige videocomprehensie. Een opvallende eigenschap van Qwen2.5-VL is zijn vermogen om objecten nauwkeurig te lokaliseren met behulp van bounding boxes of punten. Het biedt robuuste gestructureerde data-extractie van facturen, formulieren en tabellen, evenals gedetailleerde analyse van grafieken, diagrammen en lay-outs. Om complexe inputs te verwerken, introduceert Qwen2.5-VL dynamische resolutieverwerking en absolute tijdcodering, waardoor het beelden van verschillende formaten en video's van langere duur (tot uren) kan verwerken met secondenprecieze gebeurtenislokalisatie. Hierdoor kan het model ruimtelijke schalen en temporele dynamiek intrinsiek waarnemen zonder te vertrouwen op traditionele normalisatietechnieken. Door een native dynamische-resolutie Vision Transformer (ViT) vanaf nul te trainen en Window Attention te integreren, verminderen we de rekenkosten terwijl de native resolutie behouden blijft. Als resultaat blinkt Qwen2.5-VL niet alleen uit in statische beeld- en documentbegrip, maar ook als een interactieve visuele agent die in staat is tot redeneren, gereedschapsgebruik en taakuitvoering in real-world scenario's zoals het bedienen van computers en mobiele apparaten. Qwen2.5-VL is beschikbaar in drie formaten, die diverse use cases adresseren van edge AI tot high-performance computing. Het vlaggenschipmodel Qwen2.5-VL-72B kan wedijveren met state-of-the-art modellen zoals GPT-4o en Claude 3.5 Sonnet, met name uitblinkend in document- en diagrambegrip. Daarnaast behoudt Qwen2.5-VL een robuuste linguïstische prestaties, waarbij de kern taalvaardigheden van de Qwen2.5 LLM behouden blijven.

English

We introduce Qwen2.5-VL, the latest flagship model of Qwen vision-language series, which demonstrates significant advancements in both foundational capabilities and innovative functionalities. Qwen2.5-VL achieves a major leap forward in understanding and interacting with the world through enhanced visual recognition, precise object localization, robust document parsing, and long-video comprehension. A standout feature of Qwen2.5-VL is its ability to localize objects using bounding boxes or points accurately. It provides robust structured data extraction from invoices, forms, and tables, as well as detailed analysis of charts, diagrams, and layouts. To handle complex inputs, Qwen2.5-VL introduces dynamic resolution processing and absolute time encoding, enabling it to process images of varying sizes and videos of extended durations (up to hours) with second-level event localization. This allows the model to natively perceive spatial scales and temporal dynamics without relying on traditional normalization techniques. By training a native dynamic-resolution Vision Transformer (ViT) from scratch and incorporating Window Attention, we reduce computational overhead while maintaining native resolution. As a result, Qwen2.5-VL excels not only in static image and document understanding but also as an interactive visual agent capable of reasoning, tool usage, and task execution in real-world scenarios such as operating computers and mobile devices. Qwen2.5-VL is available in three sizes, addressing diverse use cases from edge AI to high-performance computing. The flagship Qwen2.5-VL-72B model matches state-of-the-art models like GPT-4o and Claude 3.5 Sonnet, particularly excelling in document and diagram understanding. Additionally, Qwen2.5-VL maintains robust linguistic performance, preserving the core language competencies of the Qwen2.5 LLM.

Qwen2.5-VL Technisch Rapport

Qwen2.5-VL Technical Report

Samenvatting

Support