Informe Técnico de Qwen2.5-VLQwen2.5-VL Technical Report
Presentamos Qwen2.5-VL, el último modelo insignia de la serie de visión y lenguaje Qwen, que demuestra avances significativos tanto en capacidades fundamentales como en funcionalidades innovadoras. Qwen2.5-VL logra un gran salto adelante en la comprensión e interacción con el mundo a través de un reconocimiento visual mejorado, una localización precisa de objetos, un análisis robusto de documentos y una comprensión de videos largos. Una característica destacada de Qwen2.5-VL es su capacidad para localizar objetos utilizando cuadros delimitadores o puntos con precisión. Ofrece una extracción robusta de datos estructurados de facturas, formularios y tablas, así como un análisis detallado de gráficos, diagramas y diseños. Para manejar entradas complejas, Qwen2.5-VL introduce el procesamiento de resolución dinámica y la codificación de tiempo absoluto, permitiéndole procesar imágenes de diversos tamaños y videos de duración extendida (hasta horas) con localización de eventos a nivel de segundo. Esto permite que el modelo perciba nativamente escalas espaciales y dinámicas temporales sin depender de técnicas tradicionales de normalización. Al entrenar un Vision Transformer (ViT) de resolución dinámica nativa desde cero e incorporar Window Attention, reducimos la sobrecarga computacional mientras mantenemos la resolución nativa. Como resultado, Qwen2.5-VL sobresale no solo en la comprensión de imágenes estáticas y documentos, sino también como un agente visual interactivo capaz de razonar, utilizar herramientas y ejecutar tareas en escenarios del mundo real, como operar computadoras y dispositivos móviles. Qwen2.5-VL está disponible en tres tamaños, abordando diversos casos de uso desde la IA en el borde hasta la computación de alto rendimiento. El modelo insignia Qwen2.5-VL-72B iguala a los modelos de vanguardia como GPT-4o y Claude 3.5 Sonnet, destacándose particularmente en la comprensión de documentos y diagramas. Además, Qwen2.5-VL mantiene un rendimiento lingüístico robusto, preservando las competencias centrales del lenguaje del Qwen2.5 LLM.