ChatPaper.aiChatPaper

Технический отчет Qwen2.5-VL

Qwen2.5-VL Technical Report

February 19, 2025
Авторы: Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin
cs.AI

Аннотация

Представляем Qwen2.5-VL, новейшую флагманскую модель серии Qwen для обработки визуальных и языковых данных, которая демонстрирует значительные улучшения как в базовых возможностях, так и в инновационных функциях. Qwen2.5-VL совершает существенный прорыв в понимании и взаимодействии с миром благодаря улучшенному визуальному распознаванию, точной локализации объектов, надежному анализу документов и пониманию длинных видео. Одной из ключевых особенностей Qwen2.5-VL является способность точно локализовать объекты с использованием ограничивающих рамок или точек. Модель обеспечивает надежное извлечение структурированных данных из счетов, форм и таблиц, а также детальный анализ графиков, диаграмм и макетов. Для обработки сложных входных данных Qwen2.5-VL внедряет динамическое разрешение и кодирование абсолютного времени, что позволяет ей обрабатывать изображения различных размеров и видео продолжительностью до нескольких часов с локализацией событий на уровне секунд. Это позволяет модели естественно воспринимать пространственные масштабы и временные динамики без использования традиционных методов нормализации. Обучая Vision Transformer (ViT) с динамическим разрешением с нуля и внедряя Window Attention, мы снижаем вычислительные затраты, сохраняя при этом исходное разрешение. В результате Qwen2.5-VL превосходно справляется не только с пониманием статических изображений и документов, но и выступает в роли интерактивного визуального агента, способного к рассуждениям, использованию инструментов и выполнению задач в реальных сценариях, таких как управление компьютерами и мобильными устройствами. Qwen2.5-VL доступна в трех размерах, охватывая различные варианты использования — от edge AI до высокопроизводительных вычислений. Флагманская модель Qwen2.5-VL-72B соответствует современным моделям, таким как GPT-4o и Claude 3.5 Sonnet, особенно выделяясь в понимании документов и диаграмм. Кроме того, Qwen2.5-VL сохраняет высокую лингвистическую производительность, поддерживая ключевые языковые компетенции модели Qwen2.5 LLM.
English
We introduce Qwen2.5-VL, the latest flagship model of Qwen vision-language series, which demonstrates significant advancements in both foundational capabilities and innovative functionalities. Qwen2.5-VL achieves a major leap forward in understanding and interacting with the world through enhanced visual recognition, precise object localization, robust document parsing, and long-video comprehension. A standout feature of Qwen2.5-VL is its ability to localize objects using bounding boxes or points accurately. It provides robust structured data extraction from invoices, forms, and tables, as well as detailed analysis of charts, diagrams, and layouts. To handle complex inputs, Qwen2.5-VL introduces dynamic resolution processing and absolute time encoding, enabling it to process images of varying sizes and videos of extended durations (up to hours) with second-level event localization. This allows the model to natively perceive spatial scales and temporal dynamics without relying on traditional normalization techniques. By training a native dynamic-resolution Vision Transformer (ViT) from scratch and incorporating Window Attention, we reduce computational overhead while maintaining native resolution. As a result, Qwen2.5-VL excels not only in static image and document understanding but also as an interactive visual agent capable of reasoning, tool usage, and task execution in real-world scenarios such as operating computers and mobile devices. Qwen2.5-VL is available in three sizes, addressing diverse use cases from edge AI to high-performance computing. The flagship Qwen2.5-VL-72B model matches state-of-the-art models like GPT-4o and Claude 3.5 Sonnet, particularly excelling in document and diagram understanding. Additionally, Qwen2.5-VL maintains robust linguistic performance, preserving the core language competencies of the Qwen2.5 LLM.

Summary

AI-Generated Summary

PDF1847February 20, 2025