Qwen2.5-VL Technisch RapportQwen2.5-VL Technical Report
We introduceren Qwen2.5-VL, het nieuwste vlaggenschipmodel van de Qwen vision-language serie, dat aanzienlijke vooruitgang boekt in zowel fundamentele mogelijkheden als innovatieve functionaliteiten. Qwen2.5-VL maakt een grote sprong voorwaarts in het begrijpen en interacteren met de wereld door verbeterde visuele herkenning, nauwkeurige objectlokalisatie, robuuste documentparsing en langdurige videocomprehensie. Een opvallende eigenschap van Qwen2.5-VL is zijn vermogen om objecten nauwkeurig te lokaliseren met behulp van bounding boxes of punten. Het biedt robuuste gestructureerde data-extractie van facturen, formulieren en tabellen, evenals gedetailleerde analyse van grafieken, diagrammen en lay-outs. Om complexe inputs te verwerken, introduceert Qwen2.5-VL dynamische resolutieverwerking en absolute tijdcodering, waardoor het beelden van verschillende formaten en video's van langere duur (tot uren) kan verwerken met secondenprecieze gebeurtenislokalisatie. Hierdoor kan het model ruimtelijke schalen en temporele dynamiek intrinsiek waarnemen zonder te vertrouwen op traditionele normalisatietechnieken. Door een native dynamische-resolutie Vision Transformer (ViT) vanaf nul te trainen en Window Attention te integreren, verminderen we de rekenkosten terwijl de native resolutie behouden blijft. Als resultaat blinkt Qwen2.5-VL niet alleen uit in statische beeld- en documentbegrip, maar ook als een interactieve visuele agent die in staat is tot redeneren, gereedschapsgebruik en taakuitvoering in real-world scenario's zoals het bedienen van computers en mobiele apparaten. Qwen2.5-VL is beschikbaar in drie formaten, die diverse use cases adresseren van edge AI tot high-performance computing. Het vlaggenschipmodel Qwen2.5-VL-72B kan wedijveren met state-of-the-art modellen zoals GPT-4o en Claude 3.5 Sonnet, met name uitblinkend in document- en diagrambegrip. Daarnaast behoudt Qwen2.5-VL een robuuste linguïstische prestaties, waarbij de kern taalvaardigheden van de Qwen2.5 LLM behouden blijven.