Vers une recherche multimodale agentique à long horizon

Résumé

Les agents de recherche approfondie multimodaux ont démontré un grand potentiel pour résoudre des tâches complexes en collectant itérativement des preuves textuelles et visuelles. Cependant, la gestion des informations hétérogènes et des coûts élevés en tokens associés aux entrées multimodales sur de longs horizons reste un défi critique, car les méthodes existantes souffrent souvent d'une explosion du contexte ou de la perte de signaux visuels cruciaux. Pour résoudre ce problème, nous proposons un nouveau cadre de recherche approfondie multimodale à long horizon, nommé LMM-Searcher, centré sur un mécanisme de représentation visuelle basé sur des fichiers. En déchargeant les ressources visuelles vers un système de fichiers externe et en les associant à des identifiants textuels légers (UID), notre approche réduit la surcharge contextuelle tout en préservant les informations multimodales pour un accès futur. Nous dotons l'agent d'un outil spécialisé de récupération d'images, permettant une stratégie de chargement visuel progressif et à la demande pour une perception active. De plus, nous introduisons un pipeline de synthèse de données conçu pour générer des requêtes nécessitant un raisonnement multi-sauts cross-modal complexe. En utilisant ce pipeline, nous distillons 12 000 trajectoires de haute qualité pour affiner Qwen3-VL-Thinking-30A3B en un agent spécialisé de recherche approfondie multimodale. Des expériences approfondies sur quatre benchmarks démontrent que notre méthode s'adapte avec succès à des horizons de recherche de 100 tours, atteignant des performances de pointe parmi les modèles open-source sur des benchmarks exigeants à long horizon comme MM-BrowseComp et MMSearch-Plus, tout en présentant une forte généralisabilité sur différents modèles de base. Notre code sera publié sur https://github.com/RUCAIBox/LMM-Searcher.

English

Multimodal deep search agents have shown great potential in solving complex tasks by iteratively collecting textual and visual evidence. However, managing the heterogeneous information and high token costs associated with multimodal inputs over long horizons remains a critical challenge, as existing methods often suffer from context explosion or the loss of crucial visual signals. To address this, we propose a novel Long-horizon MultiModal deep search framework, named LMM-Searcher, centered on a file-based visual representation mechanism. By offloading visual assets to an external file system and mapping them to lightweight textual identifiers (UIDs), our approach mitigates context overhead while preserving multimodal information for future access. We equip the agent with a tailored fetch-image tool, enabling a progressive, on-demand visual loading strategy for active perception. Furthermore, we introduce a data synthesis pipeline designed to generate queries requiring complex cross-modal multi-hop reasoning. Using this pipeline, we distill 12K high-quality trajectories to fine-tune Qwen3-VL-Thinking-30A3B into a specialized multimodal deep search agent. Extensive experiments across four benchmarks demonstrate that our method successfully scales to 100-turn search horizons, achieving state-of-the-art performance among open-source models on challenging long-horizon benchmarks like MM-BrowseComp and MMSearch-Plus, while also exhibiting strong generalizability across different base models. Our code will be released in https://github.com/RUCAIBox/LMM-Searcher.

Vers une recherche multimodale agentique à long horizon

Towards Long-horizon Agentic Multimodal Search

Résumé

Support