Visual-Seeker: На пути к визуально-нативному мультимодальному агентному поиску посредством активного визуального рассуждения

Аннотация

Мультимодальные большие языковые модели (MLLM) продемонстрировали впечатляющие возможности во многих визуальных задачах, однако часто испытывают трудности с фактическим обоснованием при столкновении со сложными сценариями открытого мира. Хотя недавние мультимодальные агенты глубокого поиска пытаются решить эту проблему с помощью внешних инструментов, парадигма визуально-нативного поиска остается недостаточно изученной. Существующие методы в основном полагаются на простые изображения с явной семантикой и текстовые траектории доказательств, что ограничивает способность агента выполнять многошаговые кросс-модальные рассуждения и поиск. Для преодоления этих ограничений мы предлагаем Visual-Seeker — визуально-нативный мультимодальный агент глубокого поиска, основанный на активном визуальном рассуждении. Вместо того чтобы рассматривать зрение как статический вход, наш агент активно уделяет внимание мелкозернистым визуальным деталям, динамически собирая визуальные свидетельства на протяжении всего процесса поиска. Для раскрытия его визуально-нативного потенциала мы разрабатываем конвейер данных активного визуального рассуждения и синтезируем 5 тысяч высококачественных мультимодальных траекторий для обучения модели. Обширные эксперименты демонстрируют передовую производительность на пяти сложных эталонных тестах мультимодального поиска, превосходя даже несколько проприетарных моделей, что подтверждает надежное визуально-нативное рассуждение и поиск в реальных веб-средах. Код и данные доступны по адресу: https://github.com/ZhengboZhang/Visual-Seeker.

English

Multimodal large language models (MLLMs) have demonstrated impressive capabilities in many visual tasks, but they often struggle with factual grounding when confronted with complex, open-world scenarios. While recent multimodal deep search agents attempt to address this issue by utilizing external tools, the visual-native search paradigm remains underexplored. Existing methods primarily rely on simple images with explicit semantics and text-only evidence trajectories, limiting the agent's ability to perform multi-hop, cross-modal reasoning and search. To address these limitations, we propose Visual-Seeker, a visual-native multimodal deep search agent via active visual reasoning. Rather than treating vision as a static input, our agent actively attends to fine-grained visual details, dynamically harvests visual evidence throughout the search process. To unlock its visual-native potential, we design an active visual reasoning data pipeline and synthesize 5K high-quality multimodal trajectories for model training. Extensive experiments demonstrate the state-of-the-art performance across five challenging multimodal search benchmarks, even surpassing several proprietary models, validating robust visual-native reasoning and search in real-world web environments. The code and data can be accessed at: https://github.com/ZhengboZhang/Visual-Seeker.