ChatPaper.aiChatPaper

Skywork-R1V4: 画像と深層思考のインタリーブによるエージェント的マルチモーダル知能の実現を目指して

Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch

December 2, 2025
著者: Yifan Zhang, Liang Hu, Haofeng Sun, Peiyu Wang, Yichen Wei, Shukang Yin, Jiangbo Pei, Wei Shen, Peng Xia, Yi Peng, Tianyidan Xie, Eric Li, Yang Liu, Xuchen Song, Yahui Zhou
cs.AI

要旨

近年のマルチモーダルエージェントシステムは進歩を遂げているものの、既存のアプローチでは画像操作とWeb検索が分離された能力として扱われ、高コストな強化学習への依存が強く、実ツール実行トレースに基づいた計画性が欠如している。これらの課題を解決するため、我々はSkywork-R1V4を提案する。これは30B(実質3B)パラメータのマルチモーダルエージェントモデルであり、マルチモーダル計画、能動的画像操作(「画像を用いた思考」)、深層マルチモーダル検索、そして最も重要な、視覚操作と外部知識検索を動的に切り替えるインターリーブ推論を統合している。3万件未満の高品質な計画実行整合性トラジェクトリによる教師ありファインチューニングのみで学習し、段階的整合性フィルタリングで検証された本モデルは、知覚とマルチモーダル検索のベンチマークで最先端の結果を達成:MMSearchで66.1点、FVQAで67.2点を獲得し、全11指標でGemini 2.5 Flashを上回った。Skywork-R1V4は推論時に創発的な長期推論能力を示し、複雑な多段階タスクを解決するために10回以上のツール呼び出しを成功裏に調整する。本結果は、強化学習に依存せず、厳選された教師あり学習のみによって高度なエージェント型マルチモーダル知能が実現可能であることを実証している。
English
Despite recent progress in multimodal agentic systems, existing approaches often treat image manipulation and web search as disjoint capabilities, rely heavily on costly reinforcement learning, and lack planning grounded in real tool-execution traces. To address these limitations, we present Skywork-R1V4, a 30B (A3B) parameter multimodal agentic model that unifies multimodal planning, active image manipulation ("thinking with images"), deep multimodal search, and, most critically, interleaved reasoning that dynamically alternates between visual operations and external knowledge retrieval. Trained solely via supervised fine-tuning on fewer than 30,000 high-quality, planning-execution-consistent trajectories and validated through stepwise consistency filtering, Skywork-R1V4 achieves state-of-the-art results across perception and multimodal search benchmarks: it scores 66.1 on MMSearch and 67.2 on FVQA, surpassing Gemini 2.5 Flash on all 11 metrics. Skywork-R1V4 exhibits emergent long-horizon reasoning at inference time, successfully orchestrating more than 10 tool calls to solve complex, multi-step tasks. Our results demonstrate that sophisticated agentic multimodal intelligence can be achieved through carefully curated supervised learning alone, without any reliance on reinforcement learning.
PDF341December 4, 2025