Verso una ricerca multimodale agentica a lungo orizzonte

Abstract

Gli agenti di ricerca approfondita multimodale hanno dimostrato un grande potenziale nella risoluzione di compiti complessi attraverso la raccolta iterativa di evidenze testuali e visive. Tuttavia, la gestione delle informazioni eterogenee e degli elevati costi in token associati agli input multimodali su orizzonti temporali lunghi rimane una sfida critica, poiché i metodi esistenti spesso soffrono di esplosione del contesto o della perdita di segnali visivi cruciali. Per affrontare questo problema, proponiamo una nuova framework di ricerca approfondita multimodale a lungo termine, denominata LMM-Searcher, incentrata su un meccanismo di rappresentazione visiva basato su file. Scaricando le risorse visive su un file system esterno e mappandole su identificatori testuali leggeri (UID), il nostro approccio mitiga il sovraccarico del contesto preservando al contempo le informazioni multimodali per accessi futuri. Dotiamo l'agente di uno strumento appositamente studiato per il recupero delle immagini (fetch-image), abilitando una strategia di caricamento visivo progressivo e su richiesta per una percezione attiva. Inoltre, introduciamo una pipeline di sintesi dei dati progettata per generare query che richiedono ragionamenti multimodali complessi a più hop. Utilizzando questa pipeline, distilliamo 12.000 traiettorie di alta qualità per mettere a punto (fine-tune) Qwen3-VL-Thinking-30A3B e trasformarlo in un agente di ricerca approfondita multimodale specializzato. Esperimenti estesi su quattro benchmark dimostrano che il nostro metodo scala con successo fino a orizzonti di ricerca di 100 turni, raggiungendo prestazioni all'avanguardia tra i modelli open-source su benchmark impegnativi a lungo termine come MM-BrowseComp e MMSearch-Plus, mostrando al contempo una forte generalizzabilità su diversi modelli base. Il nostro codice sarà rilasciato su https://github.com/RUCAIBox/LMM-Searcher.

English

Multimodal deep search agents have shown great potential in solving complex tasks by iteratively collecting textual and visual evidence. However, managing the heterogeneous information and high token costs associated with multimodal inputs over long horizons remains a critical challenge, as existing methods often suffer from context explosion or the loss of crucial visual signals. To address this, we propose a novel Long-horizon MultiModal deep search framework, named LMM-Searcher, centered on a file-based visual representation mechanism. By offloading visual assets to an external file system and mapping them to lightweight textual identifiers (UIDs), our approach mitigates context overhead while preserving multimodal information for future access. We equip the agent with a tailored fetch-image tool, enabling a progressive, on-demand visual loading strategy for active perception. Furthermore, we introduce a data synthesis pipeline designed to generate queries requiring complex cross-modal multi-hop reasoning. Using this pipeline, we distill 12K high-quality trajectories to fine-tune Qwen3-VL-Thinking-30A3B into a specialized multimodal deep search agent. Extensive experiments across four benchmarks demonstrate that our method successfully scales to 100-turn search horizons, achieving state-of-the-art performance among open-source models on challenging long-horizon benchmarks like MM-BrowseComp and MMSearch-Plus, while also exhibiting strong generalizability across different base models. Our code will be released in https://github.com/RUCAIBox/LMM-Searcher.

Verso una ricerca multimodale agentica a lungo orizzonte

Towards Long-horizon Agentic Multimodal Search

Abstract

Support