Vision-DeepResearch: Incentivare le Capacità di Ricerca Approfondita nei Modelli Linguistici Multimodali di Grande Dimensione

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno ottenuto un successo notevole in un'ampia gamma di compiti visivi. Tuttavia, limitati dalla capacità della loro conoscenza interna del mondo, lavori precedenti hanno proposto di potenziare gli MLLM attraverso un approccio di "ragionamento-poi-uso-di-strumenti" per i motori di ricerca visivi e testuali, ottenendo miglioramenti sostanziali in compiti che richiedono informazioni fattuali estese. Tuttavia, questi approcci tipicamente definiscono la ricerca multimodale in un contesto ingenuo, assumendo che una singola query a livello di immagine completo o di entità e poche query testuali siano sufficienti per recuperare le prove chiave necessarie a rispondere alla domanda, il che è irrealistico in scenari reali con rumore visivo sostanziale. Inoltre, sono spesso limitati nella profondità di ragionamento e nell'ampiezza di ricerca, rendendo difficile risolvere domande complesse che richiedono l'aggregazione di prove da fonti visive e testuali diverse. Sulla base di ciò, proponiamo Vision-DeepResearch, che introduce un nuovo paradigma di ricerca approfondita multimodale, ovvero esegue una ricerca visiva e testuale multi-turno, multi-entità e multi-scala per colpire in modo robusto i motori di ricerca reali sotto forte rumore. Il nostro Vision-DeepResearch supporta dozzine di passaggi di ragionamento e centinaia di interazioni con i motori, internalizzando al contempo le capacità di ricerca approfondita nell'MLLM attraverso supervisione cold-start e addestramento RL, dando vita a un potente MLLM multimodale di ricerca approfondita end-to-end. Esso supera sostanzialmente gli MLLM multimodali di ricerca approfondita esistenti e i flussi di lavoro costruiti su potenti modelli foundation closed-source come GPT-5, Gemini-2.5-pro e Claude-4-Sonnet. Il codice sarà rilasciato su https://github.com/Osilly/Vision-DeepResearch.

English

Multimodal large language models (MLLMs) have achieved remarkable success across a broad range of vision tasks. However, constrained by the capacity of their internal world knowledge, prior work has proposed augmenting MLLMs by ``reasoning-then-tool-call'' for visual and textual search engines to obtain substantial gains on tasks requiring extensive factual information. However, these approaches typically define multimodal search in a naive setting, assuming that a single full-level or entity-level image query and few text query suffices to retrieve the key evidence needed to answer the question, which is unrealistic in real-world scenarios with substantial visual noise. Moreover, they are often limited in the reasoning depth and search breadth, making it difficult to solve complex questions that require aggregating evidence from diverse visual and textual sources. Building on this, we propose Vision-DeepResearch, which proposes one new multimodal deep-research paradigm, i.e., performs multi-turn, multi-entity and multi-scale visual and textual search to robustly hit real-world search engines under heavy noise. Our Vision-DeepResearch supports dozens of reasoning steps and hundreds of engine interactions, while internalizing deep-research capabilities into the MLLM via cold-start supervision and RL training, resulting in a strong end-to-end multimodal deep-research MLLM. It substantially outperforming existing multimodal deep-research MLLMs, and workflows built on strong closed-source foundation model such as GPT-5, Gemini-2.5-pro and Claude-4-Sonnet. The code will be released in https://github.com/Osilly/Vision-DeepResearch.

Vision-DeepResearch: Incentivare le Capacità di Ricerca Approfondita nei Modelli Linguistici Multimodali di Grande Dimensione

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Abstract

Support