Vision-DeepResearch:マルチモーダル大規模言語モデルにおける深層研究能力の促進
Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
January 29, 2026
著者: Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は、幅広い視覚タスクにおいて顕著な成功を収めている。しかし、内部の世界知識の容量に制約があるため、従来の研究では「推論後にツール呼び出し」を行うことでMLLMを拡張し、視覚およびテキスト検索エンジンを活用することで、大量の事実情報を必要とするタスクでの大幅な性能向上が提案されてきた。しかし、これらのアプローチは通常、単一の画像全体クエリまたはエンティティレベル画像クエリと少数のテキストクエリで質問に答えるために必要な重要証拠を取得できるという素朴な設定でマルチモーダル検索を定義しており、視覚ノイズが深刻な実世界のシナリオでは非現実的である。さらに、推論の深さと検索の幅が限られていることが多く、多様な視覚的・テキスト的ソースから証拠を集約する必要がある複雑な質問の解決が困難である。これを受けて我々はVision-DeepResearchを提案し、新しいマルチモーダル深層検索パラダイム、すなわちマルチターン・マルチエンティティ・マルチスケールの視覚およびテキスト検索を実行し、高ノイズ下での実世界検索エンジンに頑健に対応する。我々のVision-DeepResearchは数十の推論ステップと数百のエンジン相互作用をサポートし、コールドスタート監視と強化学習トレーニングを通じて深層検索能力をMLLMに内包させることで、強力なエンドツーエンドのマルチモーダル深層検索MLLMを実現する。これは既存のマルチモーダル深層検索MLLMや、GPT-5、Gemini-2.5-pro、Claude-4-Sonnetなどの強力なクローズドソース基盤モデルに基づくワークフローを大幅に上回る性能を示す。コードはhttps://github.com/Osilly/Vision-DeepResearchで公開予定である。
English
Multimodal large language models (MLLMs) have achieved remarkable success across a broad range of vision tasks. However, constrained by the capacity of their internal world knowledge, prior work has proposed augmenting MLLMs by ``reasoning-then-tool-call'' for visual and textual search engines to obtain substantial gains on tasks requiring extensive factual information. However, these approaches typically define multimodal search in a naive setting, assuming that a single full-level or entity-level image query and few text query suffices to retrieve the key evidence needed to answer the question, which is unrealistic in real-world scenarios with substantial visual noise. Moreover, they are often limited in the reasoning depth and search breadth, making it difficult to solve complex questions that require aggregating evidence from diverse visual and textual sources. Building on this, we propose Vision-DeepResearch, which proposes one new multimodal deep-research paradigm, i.e., performs multi-turn, multi-entity and multi-scale visual and textual search to robustly hit real-world search engines under heavy noise. Our Vision-DeepResearch supports dozens of reasoning steps and hundreds of engine interactions, while internalizing deep-research capabilities into the MLLM via cold-start supervision and RL training, resulting in a strong end-to-end multimodal deep-research MLLM. It substantially outperforming existing multimodal deep-research MLLMs, and workflows built on strong closed-source foundation model such as GPT-5, Gemini-2.5-pro and Claude-4-Sonnet. The code will be released in https://github.com/Osilly/Vision-DeepResearch.