Auf dem Weg zur agentenbasierten multimodalen Suche mit langem Planungshorizont

Zusammenfassung

Multimodale Deep-Search-Agents haben ein großes Potenzial bei der Lösung komplexer Aufgaben durch iteratives Sammeln von textuellen und visuellen Beweisen gezeigt. Die Verwaltung heterogener Informationen und die hohen Token-Kosten, die mit multimodalen Eingaben über lange Horizonte verbunden sind, bleiben jedoch eine kritische Herausforderung, da bestehende Methoden oft unter Kontextexplosion oder dem Verlust entscheidender visueller Signale leiden. Um dies zu adressieren, schlagen wir einen neuartigen Deep-Search-Framework für lange Horizonte, genannt LMM-Searcher, vor, der auf einem dateibasierten visuellen Repräsentationsmechanismus zentriert ist. Indem visuelle Assets in ein externes Dateisystem ausgelagert und auf leichtgewichtige textuelle Identifikatoren (UIDs) abgebildet werden, reduziert unser Ansatz den Kontext-Overhead und erhält gleichzeitig multimodale Informationen für zukünftigen Zugriff. Wir statten den Agenten mit einem speziell angepassten Fetch-Image-Tool aus, das eine progressive, bedarfsgesteuerte Strategie zum Laden visueller Daten für aktive Wahrnehmung ermöglicht. Darüber hinaus führen wir einen Data-Synthesis-Pipeline ein, der entwickelt wurde, um Abfragen zu generieren, die komplexe, kreuzmodale Multi-Hop-Schlussfolgerungen erfordern. Mit diesem Pipeline distillieren wir 12.000 hochwertige Trajektorien, um Qwen3-VL-Thinking-30A3B zu einem spezialisierten multimodalen Deep-Search-Agenten zu feinabstimmen. Umfangreiche Experimente über vier Benchmarks zeigen, dass unsere Methode erfolgreich auf Suchhorizonte von 100 Interaktionen skaliert und state-of-the-art Leistung unter Open-Source-Modellen auf anspruchsvollen Langzeit-Benchmarks wie MM-BrowseComp und MMSearch-Plus erreicht, während sie gleichzeitig eine starke Generalisierbarkeit über verschiedene Basismodelle hinweg zeigt. Unser Code wird unter https://github.com/RUCAIBox/LMM-Searcher veröffentlicht.

English

Multimodal deep search agents have shown great potential in solving complex tasks by iteratively collecting textual and visual evidence. However, managing the heterogeneous information and high token costs associated with multimodal inputs over long horizons remains a critical challenge, as existing methods often suffer from context explosion or the loss of crucial visual signals. To address this, we propose a novel Long-horizon MultiModal deep search framework, named LMM-Searcher, centered on a file-based visual representation mechanism. By offloading visual assets to an external file system and mapping them to lightweight textual identifiers (UIDs), our approach mitigates context overhead while preserving multimodal information for future access. We equip the agent with a tailored fetch-image tool, enabling a progressive, on-demand visual loading strategy for active perception. Furthermore, we introduce a data synthesis pipeline designed to generate queries requiring complex cross-modal multi-hop reasoning. Using this pipeline, we distill 12K high-quality trajectories to fine-tune Qwen3-VL-Thinking-30A3B into a specialized multimodal deep search agent. Extensive experiments across four benchmarks demonstrate that our method successfully scales to 100-turn search horizons, achieving state-of-the-art performance among open-source models on challenging long-horizon benchmarks like MM-BrowseComp and MMSearch-Plus, while also exhibiting strong generalizability across different base models. Our code will be released in https://github.com/RUCAIBox/LMM-Searcher.

Auf dem Weg zur agentenbasierten multimodalen Suche mit langem Planungshorizont

Towards Long-horizon Agentic Multimodal Search

Zusammenfassung

Support