Технический отчет Qwen2.5-VLQwen2.5-VL Technical Report
Представляем Qwen2.5-VL, новейшую флагманскую модель серии Qwen для обработки визуальных и языковых данных, которая демонстрирует значительные улучшения как в базовых возможностях, так и в инновационных функциях. Qwen2.5-VL совершает существенный прорыв в понимании и взаимодействии с миром благодаря улучшенному визуальному распознаванию, точной локализации объектов, надежному анализу документов и пониманию длинных видео. Одной из ключевых особенностей Qwen2.5-VL является способность точно локализовать объекты с использованием ограничивающих рамок или точек. Модель обеспечивает надежное извлечение структурированных данных из счетов, форм и таблиц, а также детальный анализ графиков, диаграмм и макетов. Для обработки сложных входных данных Qwen2.5-VL внедряет динамическое разрешение и кодирование абсолютного времени, что позволяет ей обрабатывать изображения различных размеров и видео продолжительностью до нескольких часов с локализацией событий на уровне секунд. Это позволяет модели естественно воспринимать пространственные масштабы и временные динамики без использования традиционных методов нормализации. Обучая Vision Transformer (ViT) с динамическим разрешением с нуля и внедряя Window Attention, мы снижаем вычислительные затраты, сохраняя при этом исходное разрешение. В результате Qwen2.5-VL превосходно справляется не только с пониманием статических изображений и документов, но и выступает в роли интерактивного визуального агента, способного к рассуждениям, использованию инструментов и выполнению задач в реальных сценариях, таких как управление компьютерами и мобильными устройствами. Qwen2.5-VL доступна в трех размерах, охватывая различные варианты использования — от edge AI до высокопроизводительных вычислений. Флагманская модель Qwen2.5-VL-72B соответствует современным моделям, таким как GPT-4o и Claude 3.5 Sonnet, особенно выделяясь в понимании документов и диаграмм. Кроме того, Qwen2.5-VL сохраняет высокую лингвистическую производительность, поддерживая ключевые языковые компетенции модели Qwen2.5 LLM.