Vision-DeepResearch: Incentivando la Capacidad de Investigación Profunda en Modelos de Lenguaje Grandes Multimodales
Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
January 29, 2026
Autores: Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang
cs.AI
Resumen
Los modelos de lenguaje grandes multimodales (MLLMs) han logrado un éxito notable en una amplia gama de tareas de visión. Sin embargo, limitados por la capacidad de su conocimiento interno del mundo, trabajos previos han propuesto aumentar los MLLMs mediante un enfoque de "razonamiento-y-luego-llamada-a-herramientas" para motores de búsqueda visuales y textuales, obteniendo ganancias sustanciales en tareas que requieren información factual extensa. No obstante, estos enfoques suelen definir la búsqueda multimodal en un escenario ingenuo, asumiendo que una única consulta visual a nivel completo o a nivel de entidad y pocas consultas textuales son suficientes para recuperar la evidencia clave necesaria para responder la pregunta, lo cual es poco realista en escenarios del mundo real con ruido visual sustancial. Además, a menudo están limitados en la profundidad de razonamiento y la amplitud de búsqueda, lo que dificulta resolver preguntas complejas que requieren agregar evidencia de diversas fuentes visuales y textuales. Basándonos en esto, proponemos Vision-DeepResearch, que introduce un nuevo paradigma de investigación profunda multimodal, es decir, realiza búsquedas visuales y textuales multi-turno, multi-entidad y multi-escala para impactar robustamente los motores de búsqueda del mundo real bajo ruido intenso. Nuestro Vision-DeepResearch admite docenas de pasos de razonamiento y cientos de interacciones con motores, mientras internaliza capacidades de investigación profunda en el MLLM mediante supervisión de inicio en frío y entrenamiento por RL, resultando en un MLLM de investigación profunda multimodal fuerte y de extremo a extremo. Supera sustancialmente a los MLLMs de investigación profunda multimodal existentes y a los flujos de trabajo construidos sobre modelos base de código cerrado fuertes como GPT-5, Gemini-2.5-pro y Claude-4-Sonnet. El código se publicará en https://github.com/Osilly/Vision-DeepResearch.
English
Multimodal large language models (MLLMs) have achieved remarkable success across a broad range of vision tasks. However, constrained by the capacity of their internal world knowledge, prior work has proposed augmenting MLLMs by ``reasoning-then-tool-call'' for visual and textual search engines to obtain substantial gains on tasks requiring extensive factual information. However, these approaches typically define multimodal search in a naive setting, assuming that a single full-level or entity-level image query and few text query suffices to retrieve the key evidence needed to answer the question, which is unrealistic in real-world scenarios with substantial visual noise. Moreover, they are often limited in the reasoning depth and search breadth, making it difficult to solve complex questions that require aggregating evidence from diverse visual and textual sources. Building on this, we propose Vision-DeepResearch, which proposes one new multimodal deep-research paradigm, i.e., performs multi-turn, multi-entity and multi-scale visual and textual search to robustly hit real-world search engines under heavy noise. Our Vision-DeepResearch supports dozens of reasoning steps and hundreds of engine interactions, while internalizing deep-research capabilities into the MLLM via cold-start supervision and RL training, resulting in a strong end-to-end multimodal deep-research MLLM. It substantially outperforming existing multimodal deep-research MLLMs, and workflows built on strong closed-source foundation model such as GPT-5, Gemini-2.5-pro and Claude-4-Sonnet. The code will be released in https://github.com/Osilly/Vision-DeepResearch.