Vision-DeepResearch: Förderung von DeepResearch-Fähigkeiten in multimodalen großen Sprachmodellen
Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
January 29, 2026
papers.authors: Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang
cs.AI
papers.abstract
Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Erfolge in einem breiten Spektrum von Vision-Aufgaben erzielt. Allerdings sind sie durch den Umfang ihres internen Weltwissens begrenzt. Frühere Arbeiten schlugen daher vor, MLLMs durch einen „Reasoning-then-Tool-Call“-Ansatz zu erweitern, um visuelle und textuelle Suchmaschinen anzusteuern und so erhebliche Verbesserungen bei Aufgaben zu erzielen, die umfangreiche Fakteninformationen erfordern. Diese Ansätze definieren multimodale Suche jedoch typischerweise in einer naiven Umgebung, indem sie annehmen, dass eine einzige bildbasierte Abfrage auf Vollbild- oder Entitätsebene in Kombination mit wenigen Textabfragen ausreicht, um die Schlüsselevidenz zur Beantwortung der Frage zu finden. Dies ist in realen Szenarien mit erheblichem visuellen Rauschen unrealistisch. Darüber hinaus sind sie oft in ihrer Reasoning-Tiefe und Suchbreite eingeschränkt, was es schwierig macht, komplexe Fragen zu lösen, die das Zusammenführen von Evidenz aus verschiedenen visuellen und textuellen Quellen erfordern. Aufbauend darauf schlagen wir Vision-DeepResearch vor, das ein neues multimodales Deep-Research-Paradigma einführt, d.h. es führt mehrstufige, multi-Entitäten- und multi-skalen visuelle und textuelle Suchen durch, um robust unter starkem Rauschen in realen Suchmaschinen zu bestehen. Unser Vision-DeepResearch unterstützt Dutzende von Reasoning-Schritten und Hunderte von Maschineninteraktionen, während es gleichzeitig Deep-Research-Fähigkeiten durch Cold-Start-Supervision und RL-Training im MLLM verinnerlicht, was zu einem starken end-to-end multimodalen Deep-Research-MLLM führt. Es übertrifft bestehende multimodale Deep-Research-MLLMs sowie Workflows, die auf starken Closed-Source-Foundation-Modellen wie GPT-5, Gemini-2.5-pro und Claude-4-Sonnet basieren, erheblich. Der Code wird unter https://github.com/Osilly/Vision-DeepResearch veröffentlicht.
English
Multimodal large language models (MLLMs) have achieved remarkable success across a broad range of vision tasks. However, constrained by the capacity of their internal world knowledge, prior work has proposed augmenting MLLMs by ``reasoning-then-tool-call'' for visual and textual search engines to obtain substantial gains on tasks requiring extensive factual information. However, these approaches typically define multimodal search in a naive setting, assuming that a single full-level or entity-level image query and few text query suffices to retrieve the key evidence needed to answer the question, which is unrealistic in real-world scenarios with substantial visual noise. Moreover, they are often limited in the reasoning depth and search breadth, making it difficult to solve complex questions that require aggregating evidence from diverse visual and textual sources. Building on this, we propose Vision-DeepResearch, which proposes one new multimodal deep-research paradigm, i.e., performs multi-turn, multi-entity and multi-scale visual and textual search to robustly hit real-world search engines under heavy noise. Our Vision-DeepResearch supports dozens of reasoning steps and hundreds of engine interactions, while internalizing deep-research capabilities into the MLLM via cold-start supervision and RL training, resulting in a strong end-to-end multimodal deep-research MLLM. It substantially outperforming existing multimodal deep-research MLLMs, and workflows built on strong closed-source foundation model such as GPT-5, Gemini-2.5-pro and Claude-4-Sonnet. The code will be released in https://github.com/Osilly/Vision-DeepResearch.