ChatPaper.aiChatPaper

Qwen2.5-VL 技術レポート

Qwen2.5-VL Technical Report

February 19, 2025
著者: Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin
cs.AI

要旨

Qwen2.5-VLを紹介します。これはQwen視覚言語シリーズの最新フラッグシップモデルであり、基礎能力と革新的な機能の両面で大きな進化を遂げています。Qwen2.5-VLは、強化された視覚認識、精密な物体位置特定、堅牢な文書解析、長尺動画理解を通じて、世界を理解し対話する能力において大きな飛躍を達成しました。Qwen2.5-VLの特筆すべき特徴は、バウンディングボックスやポイントを使用して物体を正確に位置特定できる点です。また、請求書、フォーム、表からの堅牢な構造化データ抽出や、チャート、図表、レイアウトの詳細な分析を提供します。複雑な入力を処理するために、Qwen2.5-VLは動的解像度処理と絶対時間エンコーディングを導入し、さまざまなサイズの画像や長時間(数時間に及ぶ)の動画を秒単位のイベント位置特定とともに処理できるようにしました。これにより、モデルは従来の正規化手法に依存せずに、空間スケールと時間的ダイナミクスを自然に認識できます。ネイティブな動的解像度のVision Transformer(ViT)をゼロからトレーニングし、Window Attentionを組み込むことで、計算オーバーヘッドを削減しながらネイティブ解像度を維持しています。その結果、Qwen2.5-VLは静的な画像や文書の理解だけでなく、コンピュータやモバイルデバイスの操作といった現実世界のシナリオにおいて、推論、ツール使用、タスク実行が可能なインタラクティブな視覚エージェントとしても優れています。Qwen2.5-VLは3つのサイズで提供され、エッジAIから高性能コンピューティングまで多様なユースケースに対応します。フラッグシップモデルであるQwen2.5-VL-72Bは、GPT-4oやClaude 3.5 Sonnetなどの最先端モデルに匹敵し、特に文書や図表の理解において優れた性能を発揮します。さらに、Qwen2.5-VLは、Qwen2.5 LLMのコア言語能力を維持しつつ、堅牢な言語性能を保持しています。
English
We introduce Qwen2.5-VL, the latest flagship model of Qwen vision-language series, which demonstrates significant advancements in both foundational capabilities and innovative functionalities. Qwen2.5-VL achieves a major leap forward in understanding and interacting with the world through enhanced visual recognition, precise object localization, robust document parsing, and long-video comprehension. A standout feature of Qwen2.5-VL is its ability to localize objects using bounding boxes or points accurately. It provides robust structured data extraction from invoices, forms, and tables, as well as detailed analysis of charts, diagrams, and layouts. To handle complex inputs, Qwen2.5-VL introduces dynamic resolution processing and absolute time encoding, enabling it to process images of varying sizes and videos of extended durations (up to hours) with second-level event localization. This allows the model to natively perceive spatial scales and temporal dynamics without relying on traditional normalization techniques. By training a native dynamic-resolution Vision Transformer (ViT) from scratch and incorporating Window Attention, we reduce computational overhead while maintaining native resolution. As a result, Qwen2.5-VL excels not only in static image and document understanding but also as an interactive visual agent capable of reasoning, tool usage, and task execution in real-world scenarios such as operating computers and mobile devices. Qwen2.5-VL is available in three sizes, addressing diverse use cases from edge AI to high-performance computing. The flagship Qwen2.5-VL-72B model matches state-of-the-art models like GPT-4o and Claude 3.5 Sonnet, particularly excelling in document and diagram understanding. Additionally, Qwen2.5-VL maintains robust linguistic performance, preserving the core language competencies of the Qwen2.5 LLM.

Summary

AI-Generated Summary

PDF1847February 20, 2025