Op weg naar langetermijn agent-gestuurd multimodaal zoeken

Samenvatting

Multimodale deep search-agents hebben een groot potentieel getoond bij het oplossen van complexe taken door iteratief tekstueel en visueel bewijsmateriaal te verzamelen. Het beheren van de heterogene informatie en de hoge tokenkosten die gepaard gaan met multimodale inputs over lange horizonnen blijft echter een kritieke uitdaging, omdat bestaande methoden vaak lijden onder contextexplosie of het verlies van cruciale visuele signalen. Om dit aan te pakken, stellen we een nieuw Long-horizon MultiModal deep search-framework voor, genaamd LMM-Searcher, dat draait om een op bestanden gebaseerd visueel representatiemechanisme. Door visuele elementen uit te besteden aan een extern bestandssysteem en ze toe te wijzen aan lichtgewicht tekstuele identificatoren (UID's), vermindert onze aanpak de contextoverhead terwijl multimodale informatie behouden blijft voor toekomstige toegang. We rusten de agent uit met een op maat gemaakt fetch-image hulpmiddel, waardoor een progressieve, on-demand visuele laadstrategie voor actieve waarneming mogelijk wordt. Verder introduceren we een datasynthesepijplijn die is ontworpen om queries te genereren die complexe cross-modale multi-hop redenering vereisen. Met behulp van deze pijplijn distilleren we 12K hoogwaardige trajecten om Qwen3-VL-Thinking-30A3B te fine-tunen tot een gespecialiseerde multimodale deep search-agent. Uitgebreide experimenten op vier benchmarks tonen aan dat onze methode succesvol schaalt naar 100-staps zoekhorizonnen, waarbij state-of-the-art prestaties worden behaald onder open-source modellen op uitdagende lange-horizon benchmarks zoals MM-BrowseComp en MMSearch-Plus, terwijl het ook sterke generaliseerbaarheid vertoont over verschillende basismodellen. Onze code zal worden vrijgegeven op https://github.com/RUCAIBox/LMM-Searcher.

English

Multimodal deep search agents have shown great potential in solving complex tasks by iteratively collecting textual and visual evidence. However, managing the heterogeneous information and high token costs associated with multimodal inputs over long horizons remains a critical challenge, as existing methods often suffer from context explosion or the loss of crucial visual signals. To address this, we propose a novel Long-horizon MultiModal deep search framework, named LMM-Searcher, centered on a file-based visual representation mechanism. By offloading visual assets to an external file system and mapping them to lightweight textual identifiers (UIDs), our approach mitigates context overhead while preserving multimodal information for future access. We equip the agent with a tailored fetch-image tool, enabling a progressive, on-demand visual loading strategy for active perception. Furthermore, we introduce a data synthesis pipeline designed to generate queries requiring complex cross-modal multi-hop reasoning. Using this pipeline, we distill 12K high-quality trajectories to fine-tune Qwen3-VL-Thinking-30A3B into a specialized multimodal deep search agent. Extensive experiments across four benchmarks demonstrate that our method successfully scales to 100-turn search horizons, achieving state-of-the-art performance among open-source models on challenging long-horizon benchmarks like MM-BrowseComp and MMSearch-Plus, while also exhibiting strong generalizability across different base models. Our code will be released in https://github.com/RUCAIBox/LMM-Searcher.

Op weg naar langetermijn agent-gestuurd multimodaal zoeken

Towards Long-horizon Agentic Multimodal Search

Samenvatting

Support