ChatPaper.aiChatPaper

Vision-DeepResearch: Het Stimuleren van DeepResearch-capaciteit in Multimodale Grote Taalmodellen

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

January 29, 2026
Auteurs: Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang
cs.AI

Samenvatting

Multimodale grote taalmodellen (MLLM's) hebben opmerkelijke successen geboekt in een breed scala aan visuele taken. Echter, beperkt door de capaciteit van hun interne wereldkennis, hebben eerdere onderzoeken voorgesteld om MLLM's aan te vullen via "redeneren-dan-gereedschap-gebruik" voor visuele en tekstuele zoekmachines, om aanzienlijke winst te behalen bij taken die uitgebreide feitelijke informatie vereisen. Deze benaderingen definiëren multimodale zoekopdrachten echter typisch in een naïeve setting, waarbij wordt aangenomen dat een enkele query op volledig beeldniveau of entiteitsniveau en enkele tekstquery's volstaan om de sleutelbewijzen op te halen die nodig zijn om de vraag te beantwoorden, wat onrealistisch is in realistische scenario's met aanzienlijke visuele ruis. Bovendien zijn ze vaak beperkt in redeneerdiepte en zoekbreedte, waardoor het moeilijk is complexe vragen op te lossen die het samenvoegen van bewijsmateriaal uit diverse visuele en tekstuele bronnen vereisen. Voortbouwend hierop stellen wij Vision-DeepResearch voor, dat een nieuw multimodaal deep-research-paradigma introduceert, namelijk het uitvoeren van multi-turn, multi-entiteit en multi-schaal visueel en tekstueel zoeken om robuust prestaties te leveren op real-world zoekmachines onder zware ruis. Onze Vision-DeepResearch ondersteunt tientallen redeneerstappen en honderden zoekmachine-interacties, terwijl deep-research-capaciteiten worden geïnternaliseerd in de MLLM via cold-start supervisie en RL-training, wat resulteert in een sterke end-to-end multimodale deep-research MLLM. Het presteert aanzienlijk beter dan bestaande multimodale deep-research MLLM's en workflows gebouwd op sterke closed-source foundation modellen zoals GPT-5, Gemini-2.5-pro en Claude-4-Sonnet. De code zal worden vrijgegeven op https://github.com/Osilly/Vision-DeepResearch.
English
Multimodal large language models (MLLMs) have achieved remarkable success across a broad range of vision tasks. However, constrained by the capacity of their internal world knowledge, prior work has proposed augmenting MLLMs by ``reasoning-then-tool-call'' for visual and textual search engines to obtain substantial gains on tasks requiring extensive factual information. However, these approaches typically define multimodal search in a naive setting, assuming that a single full-level or entity-level image query and few text query suffices to retrieve the key evidence needed to answer the question, which is unrealistic in real-world scenarios with substantial visual noise. Moreover, they are often limited in the reasoning depth and search breadth, making it difficult to solve complex questions that require aggregating evidence from diverse visual and textual sources. Building on this, we propose Vision-DeepResearch, which proposes one new multimodal deep-research paradigm, i.e., performs multi-turn, multi-entity and multi-scale visual and textual search to robustly hit real-world search engines under heavy noise. Our Vision-DeepResearch supports dozens of reasoning steps and hundreds of engine interactions, while internalizing deep-research capabilities into the MLLM via cold-start supervision and RL training, resulting in a strong end-to-end multimodal deep-research MLLM. It substantially outperforming existing multimodal deep-research MLLMs, and workflows built on strong closed-source foundation model such as GPT-5, Gemini-2.5-pro and Claude-4-Sonnet. The code will be released in https://github.com/Osilly/Vision-DeepResearch.
PDF1545March 12, 2026