ChatPaper.aiChatPaper

Zu On-Policy-Datenevolution für visuell-native multimodale Deep-Search-Agenten

Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents

May 11, 2026
Autoren: Shijue Huang, Hangyu Guo, Chenxin Li, Junting Lu, Xinyu Geng, Zhaochen Su, Zhenyu Li, Shuang Chen, Hongru Wang, Yi R. Fung
cs.AI

Zusammenfassung

Multimodale Tiefensuche erfordert einen Agenten, der Probleme der offenen Welt löst, indem er Suche, Werkzeugnutzung und visuelles Denken über sich entwickelnde textuelle und visuelle Kontexte hinweg miteinander verknüpft. Zwei Engpässe schränken aktuelle Systeme ein. Erstens behandeln bestehende Werkzeugnutzungs-Harnesses Bilder, die durch Suche, Browsing oder Transformation zurückgegeben werden, als flüchtige Ausgaben, sodass intermediäre visuelle Beweise nicht von späteren Werkzeugen wieder aufgenommen werden können. Zweitens werden Trainingsdaten in der Regel durch feste Kuratierungsrezepte erstellt, die die sich entwickelnde Fähigkeit des Zielagenten nicht verfolgen können. Um diese Herausforderungen zu bewältigen, führen wir zunächst eine visuell-native Agenten-Harness ein, die auf einem Bildbank-Referenzprotokoll basiert, das jedes von einem Werkzeug zurückgegebene Bild als adressierbare Referenz registriert und intermediäre visuelle Beweise für spätere Werkzeuge wiederverwendbar macht. Darauf aufbauend führt On-policy Data Evolution (ODE) einen geschlossenen Datengenerator aus, der sich über mehrere Runden hinweg aus Rollouts der trainierten Policy selbst verfeinert. Diese rundenweise Verfeinerung bewirkt, dass die Daten jeder Runde das anvisieren, was die aktuelle Policy noch lernen muss. Das gleiche Framework unterstützt sowohl vielfältige überwachte Feintuning-Daten als auch policy-bewusste Kuratierung von Verstärkungslern-Daten und deckt damit den gesamten Trainingslebenszyklus des Zielagenten ab. In 8 multimodalen Tiefensuche-Benchmarks verbessert ODE den Qwen3-VL-8B Agenten im Durchschnitt von 24,9% auf 39,0% und übertrifft damit Gemini-2.5 Pro in der Standard-Agenten-Workflow-Umgebung (37,9%). Bei 30B erhöht ODE die durchschnittliche Punktzahl von 30,6% auf 41,5%. Weitere Analysen bestätigen die Wirksamkeit der Bildbank-Wiederverwendung, insbesondere bei komplexen Aufgaben, die iterative visuelle Verfeinerung erfordern, während die Rollout-Feedback-Evolution fundiertere SFT-Spuren und besser policy-angepasste RL-Aufgaben als die statische Synthese liefert.
English
Multimodal deep search requires an agent to solve open-world problems by chaining search, tool use, and visual reasoning over evolving textual and visual context. Two bottlenecks limit current systems. First, existing tool-use harnesses treat images returned by search, browsing, or transformation as transient outputs, so intermediate visual evidence cannot be re-consumed by later tools. Second, training data is usually built by fixed curation recipes that cannot track the target agent's evolving capability. To address these challenges, we first introduce a visual-native agent harness centered on an image bank reference protocol, which registers every tool-returned image as an addressable reference and makes intermediate visual evidence reusable by later tools. On top of this harness, On-policy Data Evolution (ODE) runs a closed-loop data generator that refines itself across rounds from rollouts of the policy being trained. This per-round refinement makes each round's data target what the current policy still needs to learn. The same framework supports both diverse supervised fine-tuning data and policy-aware reinforcement learning data curation, covering the full training lifecycle of the target agent. Across 8 multimodal deep search benchmarks, ODE improves the Qwen3-VL-8B agent from 24.9% to 39.0% on average, surpassing Gemini-2.5 Pro in standard agent-workflow setting (37.9%). At 30B, ODE raises the average score from 30.6% to 41.5%. Further analyses validate the effectiveness of image-bank reuse, especially on complex tasks requiring iterative visual refinement, while rollout-feedback evolution yields more grounded SFT traces and better policy-matched RL tasks than static synthesis.
PDF192May 14, 2026