Qwen2.5-VL 技術レポートQwen2.5-VL Technical Report
Qwen2.5-VLを紹介します。これはQwen視覚言語シリーズの最新フラッグシップモデルであり、基礎能力と革新的な機能の両面で大きな進化を遂げています。Qwen2.5-VLは、強化された視覚認識、精密な物体位置特定、堅牢な文書解析、長尺動画理解を通じて、世界を理解し対話する能力において大きな飛躍を達成しました。Qwen2.5-VLの特筆すべき特徴は、バウンディングボックスやポイントを使用して物体を正確に位置特定できる点です。また、請求書、フォーム、表からの堅牢な構造化データ抽出や、チャート、図表、レイアウトの詳細な分析を提供します。複雑な入力を処理するために、Qwen2.5-VLは動的解像度処理と絶対時間エンコーディングを導入し、さまざまなサイズの画像や長時間(数時間に及ぶ)の動画を秒単位のイベント位置特定とともに処理できるようにしました。これにより、モデルは従来の正規化手法に依存せずに、空間スケールと時間的ダイナミクスを自然に認識できます。ネイティブな動的解像度のVision Transformer(ViT)をゼロからトレーニングし、Window Attentionを組み込むことで、計算オーバーヘッドを削減しながらネイティブ解像度を維持しています。その結果、Qwen2.5-VLは静的な画像や文書の理解だけでなく、コンピュータやモバイルデバイスの操作といった現実世界のシナリオにおいて、推論、ツール使用、タスク実行が可能なインタラクティブな視覚エージェントとしても優れています。Qwen2.5-VLは3つのサイズで提供され、エッジAIから高性能コンピューティングまで多様なユースケースに対応します。フラッグシップモデルであるQwen2.5-VL-72Bは、GPT-4oやClaude 3.5 Sonnetなどの最先端モデルに匹敵し、特に文書や図表の理解において優れた性能を発揮します。さらに、Qwen2.5-VLは、Qwen2.5 LLMのコア言語能力を維持しつつ、堅牢な言語性能を保持しています。