Vision-DeepResearch: Incentivando a Capacidade de Pesquisa Aprofundada em Modelos de Linguagem Multimodais de Grande Escala

Resumo

Os modelos de linguagem grandes multimodais (MLLMs) alcançaram sucesso notável em uma ampla gama de tarefas visuais. No entanto, limitados pela capacidade de seu conhecimento interno do mundo, trabalhos anteriores propuseram aprimorar os MLLMs por meio de "raciocínio-depois-chamada-de-ferramenta" para motores de busca visuais e textuais, obtendo ganhos substanciais em tarefas que exigem informações factuais extensas. Contudo, essas abordagens normalmente definem a busca multimodal em um cenário ingênuo, assumindo que uma única consulta de imagem em nível completo ou de entidade e poucas consultas textuais são suficientes para recuperar a evidência chave necessária para responder à pergunta, o que é irrealista em cenários do mundo real com ruído visual substancial. Além disso, elas são frequentemente limitadas na profundidade de raciocínio e na amplitude de busca, dificultando a resolução de questões complexas que exigem a agregação de evidências de diversas fontes visuais e textuais. Com base nisso, propomos o Vision-DeepResearch, que introduz um novo paradigma de pesquisa profunda multimodal, ou seja, realiza buscas visuais e textuais multi-turno, multi-entidade e multi-escala para impactar robustamente os motores de busca do mundo real sob ruído intenso. Nosso Vision-DeepResearch suporta dezenas de etapas de raciocínio e centenas de interações com o motor, enquanto internaliza capacidades de pesquisa profunda no MLLM por meio de supervisão de *cold-start* e treinamento por RL, resultando em um MLLM de pesquisa profunda multimodal forte e de ponta a ponta. Ele supera substancialmente os MLLMs de pesquisa profunda multimodal existentes e fluxos de trabalho construídos sobre modelos de base de código fechado fortes, como GPT-5, Gemini-2.5-pro e Claude-4-Sonnet. O código será liberado em https://github.com/Osilly/Vision-DeepResearch.

English

Multimodal large language models (MLLMs) have achieved remarkable success across a broad range of vision tasks. However, constrained by the capacity of their internal world knowledge, prior work has proposed augmenting MLLMs by ``reasoning-then-tool-call'' for visual and textual search engines to obtain substantial gains on tasks requiring extensive factual information. However, these approaches typically define multimodal search in a naive setting, assuming that a single full-level or entity-level image query and few text query suffices to retrieve the key evidence needed to answer the question, which is unrealistic in real-world scenarios with substantial visual noise. Moreover, they are often limited in the reasoning depth and search breadth, making it difficult to solve complex questions that require aggregating evidence from diverse visual and textual sources. Building on this, we propose Vision-DeepResearch, which proposes one new multimodal deep-research paradigm, i.e., performs multi-turn, multi-entity and multi-scale visual and textual search to robustly hit real-world search engines under heavy noise. Our Vision-DeepResearch supports dozens of reasoning steps and hundreds of engine interactions, while internalizing deep-research capabilities into the MLLM via cold-start supervision and RL training, resulting in a strong end-to-end multimodal deep-research MLLM. It substantially outperforming existing multimodal deep-research MLLMs, and workflows built on strong closed-source foundation model such as GPT-5, Gemini-2.5-pro and Claude-4-Sonnet. The code will be released in https://github.com/Osilly/Vision-DeepResearch.

Vision-DeepResearch: Incentivando a Capacidade de Pesquisa Aprofundada em Modelos de Linguagem Multimodais de Grande Escala

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Resumo

Support