К долгосрочному агентному мультимодальному поиску

Аннотация

Мультимодальные агенты глубокого поиска продемонстрировали значительный потенциал в решении сложных задач за счет итеративного сбора текстовых и визуальных данных. Однако управление гетерогенной информацией и высокие вычислительные затраты, связанные с мультимодальными входами на длительных горизонтах, остаются критической проблемой, поскольку существующие методы часто страдают от взрывного роста контекста или потери важных визуальных сигналов. Для решения этой проблемы мы предлагаем новую структуру длительного мультимодального глубокого поиска под названием LMM-Searcher, основанную на механизме файлового визуального представления. Вынося визуальные ресурсы во внешнюю файловую систему и сопоставляя их с легковесными текстовыми идентификаторами (UID), наш подход снижает нагрузку на контекст, сохраняя при этом мультимодальную информацию для будущего доступа. Мы оснащаем агента специализированным инструментом fetch-image, обеспечивающим прогрессивную стратегию загрузки визуальных данных по требованию для активного восприятия. Кроме того, мы представляем конвейер синтеза данных, предназначенный для генерации запросов, требующих сложных кросс-модальных многошаговых рассуждений. Используя этот конвейер, мы дистиллируем 12K высококачественных траекторий для тонкой настройки модели Qwen3-VL-Thinking-30A3B в специализированного агента мультимодального глубокого поиска. Многочисленные эксперименты на четырех тестовых наборах демонстрируют, что наш метод успешно масштабируется до 100-шаговых горизонтов поиска, достигая передовой производительности среди открытых моделей на сложных длительных тестах, таких как MM-BrowseComp и MMSearch-Plus, а также демонстрируя высокую обобщающую способность на различных базовых моделях. Наш код будет опубликован по адресу https://github.com/RUCAIBox/LMM-Searcher.

English

Multimodal deep search agents have shown great potential in solving complex tasks by iteratively collecting textual and visual evidence. However, managing the heterogeneous information and high token costs associated with multimodal inputs over long horizons remains a critical challenge, as existing methods often suffer from context explosion or the loss of crucial visual signals. To address this, we propose a novel Long-horizon MultiModal deep search framework, named LMM-Searcher, centered on a file-based visual representation mechanism. By offloading visual assets to an external file system and mapping them to lightweight textual identifiers (UIDs), our approach mitigates context overhead while preserving multimodal information for future access. We equip the agent with a tailored fetch-image tool, enabling a progressive, on-demand visual loading strategy for active perception. Furthermore, we introduce a data synthesis pipeline designed to generate queries requiring complex cross-modal multi-hop reasoning. Using this pipeline, we distill 12K high-quality trajectories to fine-tune Qwen3-VL-Thinking-30A3B into a specialized multimodal deep search agent. Extensive experiments across four benchmarks demonstrate that our method successfully scales to 100-turn search horizons, achieving state-of-the-art performance among open-source models on challenging long-horizon benchmarks like MM-BrowseComp and MMSearch-Plus, while also exhibiting strong generalizability across different base models. Our code will be released in https://github.com/RUCAIBox/LMM-Searcher.

К долгосрочному агентному мультимодальному поиску

Towards Long-horizon Agentic Multimodal Search

Аннотация

Support