Rumo à Busca Multimodal Autônoma de Longo Horizonte

Resumo

Os agentes de busca profunda multimodal demonstraram grande potencial na resolução de tarefas complexas através da recolha iterativa de evidências textuais e visuais. No entanto, a gestão da informação heterogénea e dos elevados custos em *tokens* associados a entradas multimodais em horizontes temporais longos continua a ser um desafio crítico, uma vez que os métodos existentes sofrem frequentemente de explosão de contexto ou perda de sinais visuais cruciais. Para resolver esta questão, propomos uma nova estrutura de busca profunda multimodal de longo horizonte, denominada LMM-Searcher, centrada num mecanismo de representação visual baseado em ficheiros. Ao descarregar os recursos visuais para um sistema de ficheiros externo e mapeá-los para identificadores textuais leves (UIDs), a nossa abordagem mitiga a sobrecarga de contexto, preservando simultaneamente a informação multimodal para acesso futuro. Dotamos o agente com uma ferramenta personalizada de busca de imagens (*fetch-image*), permitindo uma estratégia progressiva de carregamento visual sob demanda para perceção ativa. Adicionalmente, introduzimos um *pipeline* de síntese de dados concebido para gerar consultas que exigem raciocínio multi-salto complexo e cross-modal. Utilizando este *pipeline*, destilamos 12.000 trajetórias de alta qualidade para afinar o modelo Qwen3-VL-Thinking-30A3B, transformando-o num agente especializado de busca profunda multimodal. Experiências extensas em quatro *benchmarks* demonstram que o nosso método escala com sucesso para horizontes de busca de 100 turnos, alcançando um desempenho de ponta entre modelos de código aberto em *benchmarks* desafiantes de longo horizonte como o MM-BrowseComp e o MMSearch-Plus, exibindo também uma forte generalização entre diferentes modelos base. O nosso código será disponibilizado em https://github.com/RUCAIBox/LMM-Searcher.

English

Multimodal deep search agents have shown great potential in solving complex tasks by iteratively collecting textual and visual evidence. However, managing the heterogeneous information and high token costs associated with multimodal inputs over long horizons remains a critical challenge, as existing methods often suffer from context explosion or the loss of crucial visual signals. To address this, we propose a novel Long-horizon MultiModal deep search framework, named LMM-Searcher, centered on a file-based visual representation mechanism. By offloading visual assets to an external file system and mapping them to lightweight textual identifiers (UIDs), our approach mitigates context overhead while preserving multimodal information for future access. We equip the agent with a tailored fetch-image tool, enabling a progressive, on-demand visual loading strategy for active perception. Furthermore, we introduce a data synthesis pipeline designed to generate queries requiring complex cross-modal multi-hop reasoning. Using this pipeline, we distill 12K high-quality trajectories to fine-tune Qwen3-VL-Thinking-30A3B into a specialized multimodal deep search agent. Extensive experiments across four benchmarks demonstrate that our method successfully scales to 100-turn search horizons, achieving state-of-the-art performance among open-source models on challenging long-horizon benchmarks like MM-BrowseComp and MMSearch-Plus, while also exhibiting strong generalizability across different base models. Our code will be released in https://github.com/RUCAIBox/LMM-Searcher.

Rumo à Busca Multimodal Autônoma de Longo Horizonte

Towards Long-horizon Agentic Multimodal Search

Resumo

Support