ChatPaper.aiChatPaper

Informe Técnico de Qwen2.5-VL

Qwen2.5-VL Technical Report

February 19, 2025
Autores: Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin
cs.AI

Resumen

Presentamos Qwen2.5-VL, el último modelo insignia de la serie de visión y lenguaje Qwen, que demuestra avances significativos tanto en capacidades fundamentales como en funcionalidades innovadoras. Qwen2.5-VL logra un gran salto adelante en la comprensión e interacción con el mundo a través de un reconocimiento visual mejorado, una localización precisa de objetos, un análisis robusto de documentos y una comprensión de videos largos. Una característica destacada de Qwen2.5-VL es su capacidad para localizar objetos utilizando cuadros delimitadores o puntos con precisión. Ofrece una extracción robusta de datos estructurados de facturas, formularios y tablas, así como un análisis detallado de gráficos, diagramas y diseños. Para manejar entradas complejas, Qwen2.5-VL introduce el procesamiento de resolución dinámica y la codificación de tiempo absoluto, permitiéndole procesar imágenes de diversos tamaños y videos de duración extendida (hasta horas) con localización de eventos a nivel de segundo. Esto permite que el modelo perciba nativamente escalas espaciales y dinámicas temporales sin depender de técnicas tradicionales de normalización. Al entrenar un Vision Transformer (ViT) de resolución dinámica nativa desde cero e incorporar Window Attention, reducimos la sobrecarga computacional mientras mantenemos la resolución nativa. Como resultado, Qwen2.5-VL sobresale no solo en la comprensión de imágenes estáticas y documentos, sino también como un agente visual interactivo capaz de razonar, utilizar herramientas y ejecutar tareas en escenarios del mundo real, como operar computadoras y dispositivos móviles. Qwen2.5-VL está disponible en tres tamaños, abordando diversos casos de uso desde la IA en el borde hasta la computación de alto rendimiento. El modelo insignia Qwen2.5-VL-72B iguala a los modelos de vanguardia como GPT-4o y Claude 3.5 Sonnet, destacándose particularmente en la comprensión de documentos y diagramas. Además, Qwen2.5-VL mantiene un rendimiento lingüístico robusto, preservando las competencias centrales del lenguaje del Qwen2.5 LLM.
English
We introduce Qwen2.5-VL, the latest flagship model of Qwen vision-language series, which demonstrates significant advancements in both foundational capabilities and innovative functionalities. Qwen2.5-VL achieves a major leap forward in understanding and interacting with the world through enhanced visual recognition, precise object localization, robust document parsing, and long-video comprehension. A standout feature of Qwen2.5-VL is its ability to localize objects using bounding boxes or points accurately. It provides robust structured data extraction from invoices, forms, and tables, as well as detailed analysis of charts, diagrams, and layouts. To handle complex inputs, Qwen2.5-VL introduces dynamic resolution processing and absolute time encoding, enabling it to process images of varying sizes and videos of extended durations (up to hours) with second-level event localization. This allows the model to natively perceive spatial scales and temporal dynamics without relying on traditional normalization techniques. By training a native dynamic-resolution Vision Transformer (ViT) from scratch and incorporating Window Attention, we reduce computational overhead while maintaining native resolution. As a result, Qwen2.5-VL excels not only in static image and document understanding but also as an interactive visual agent capable of reasoning, tool usage, and task execution in real-world scenarios such as operating computers and mobile devices. Qwen2.5-VL is available in three sizes, addressing diverse use cases from edge AI to high-performance computing. The flagship Qwen2.5-VL-72B model matches state-of-the-art models like GPT-4o and Claude 3.5 Sonnet, particularly excelling in document and diagram understanding. Additionally, Qwen2.5-VL maintains robust linguistic performance, preserving the core language competencies of the Qwen2.5 LLM.

Summary

AI-Generated Summary

PDF1847February 20, 2025