ChatPaper.aiChatPaper

К внутриполитической эволюции данных для визуально-нативных мультимодальных агентов глубокого поиска

Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents

May 11, 2026
Авторы: Shijue Huang, Hangyu Guo, Chenxin Li, Junting Lu, Xinyu Geng, Zhaochen Su, Zhenyu Li, Shuang Chen, Hongru Wang, Yi R. Fung
cs.AI

Аннотация

Мультимодальный глубокий поиск требует от агента решения задач открытого мира путем объединения в цепочку поиска, использования инструментов и визуального рассуждения в условиях развивающегося текстового и визуального контекста. Два узких места ограничивают современные системы. Во-первых, существующие инфраструктуры использования инструментов рассматривают изображения, возвращаемые поиском, просмотром или преобразованием, как транзитные выходные данные, поэтому промежуточные визуальные свидетельства не могут быть повторно использованы последующими инструментами. Во-вторых, обучающие данные обычно создаются по фиксированным рецептам курирования, которые не могут отслеживать развивающиеся возможности целевого агента. Для решения этих проблем мы сначала вводим визуально-ориентированную инфраструктуру агента, основанную на протоколе ссылок на банк изображений, который регистрирует каждое возвращенное инструментом изображение как адресуемую ссылку и делает промежуточные визуальные свидетельства повторно используемыми для последующих инструментов. На основе этой инфраструктуры эволюция данных на основе текущей политики (ODE) запускает генератор данных с замкнутым контуром, который самоуточняется от раунда к раунду, используя прогоны обучаемой политики. Такое порандовое уточнение гарантирует, что данные каждого раунда нацелены на то, чему текущая политика еще должна научиться. Та же самая структура поддерживает как разнообразные данные контролируемой донастройки (SFT), так и курирование данных обучения с подкреплением (RL) с учетом политики, охватывая полный жизненный цикл обучения целевого агента. На 8 бенчмарках мультимодального глубокого поиска ODE улучшает агента Qwen3-VL-8B с 24,9% до 39,0% в среднем, превосходя Gemini-2.5 Pro в стандартном режиме агентского рабочего процесса (37,9%). При 30B ODE повышает средний балл с 30,6% до 41,5%. Дальнейший анализ подтверждает эффективность повторного использования банка изображений, особенно в сложных задачах, требующих итеративного визуального уточнения, в то время как эволюция на основе обратной связи от прогонов дает более обоснованные трассы SFT и лучше согласованные с политикой задачи RL по сравнению со статическим синтезом.
English
Multimodal deep search requires an agent to solve open-world problems by chaining search, tool use, and visual reasoning over evolving textual and visual context. Two bottlenecks limit current systems. First, existing tool-use harnesses treat images returned by search, browsing, or transformation as transient outputs, so intermediate visual evidence cannot be re-consumed by later tools. Second, training data is usually built by fixed curation recipes that cannot track the target agent's evolving capability. To address these challenges, we first introduce a visual-native agent harness centered on an image bank reference protocol, which registers every tool-returned image as an addressable reference and makes intermediate visual evidence reusable by later tools. On top of this harness, On-policy Data Evolution (ODE) runs a closed-loop data generator that refines itself across rounds from rollouts of the policy being trained. This per-round refinement makes each round's data target what the current policy still needs to learn. The same framework supports both diverse supervised fine-tuning data and policy-aware reinforcement learning data curation, covering the full training lifecycle of the target agent. Across 8 multimodal deep search benchmarks, ODE improves the Qwen3-VL-8B agent from 24.9% to 39.0% on average, surpassing Gemini-2.5 Pro in standard agent-workflow setting (37.9%). At 30B, ODE raises the average score from 30.6% to 41.5%. Further analyses validate the effectiveness of image-bank reuse, especially on complex tasks requiring iterative visual refinement, while rollout-feedback evolution yields more grounded SFT traces and better policy-matched RL tasks than static synthesis.
PDF192May 14, 2026