ChatPaper.aiChatPaper

Vers une évolution des données on-policy pour des agents de recherche profonde multimodaux natifs visuels

Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents

May 11, 2026
Auteurs: Shijue Huang, Hangyu Guo, Chenxin Li, Junting Lu, Xinyu Geng, Zhaochen Su, Zhenyu Li, Shuang Chen, Hongru Wang, Yi R. Fung
cs.AI

Résumé

La recherche profonde multimodale nécessite qu'un agent résolve des problèmes ouverts en enchaînant recherche, utilisation d'outils et raisonnement visuel sur un contexte textuel et visuel en évolution. Deux goulets d'étranglement limitent les systèmes actuels. Premièrement, les cadres d'utilisation d'outils existants traitent les images renvoyées par la recherche, la navigation ou la transformation comme des sorties transitoires, de sorte que les preuves visuelles intermédiaires ne peuvent pas être réutilisées par les outils ultérieurs. Deuxièmement, les données d'entraînement sont généralement construites par des recettes de curation fixes qui ne peuvent pas suivre l'évolution des capacités de l'agent cible. Pour relever ces défis, nous introduisons d'abord un harnais d'agent natif visuel centré sur un protocole de référence de banque d'images, qui enregistre chaque image renvoyée par un outil comme une référence adressable et rend les preuves visuelles intermédiaires réutilisables par les outils ultérieurs. Sur la base de ce harnais, l'Évolution des données sur politique (ODE) exécute un générateur de données en boucle fermée qui s'affine au fil des tours à partir des déploiements de la politique en cours d'entraînement. Cet affinement par tour permet à chaque tour de cibler ce que la politique actuelle doit encore apprendre. Le même cadre prend en charge à la fois des données diverses de fine-tuning supervisé et une curation de données d'apprentissage par renforcement tenant compte de la politique, couvrant l'ensemble du cycle de vie d'entraînement de l'agent cible. Sur 8 benchmarks de recherche profonde multimodale, ODE améliore l'agent Qwen3-VL-8B de 24,9 % à 39,0 % en moyenne, surpassant Gemini-2.5 Pro dans le cadre de travail d'agent standard (37,9 %). À 30B, ODE élève le score moyen de 30,6 % à 41,5 %. Des analyses supplémentaires valident l'efficacité de la réutilisation de la banque d'images, en particulier sur les tâches complexes nécessitant un raffinement visuel itératif, tandis que l'évolution par retour des déploiements produit des traces SFT plus ancrées et de meilleures tâches RL adaptées à la politique que la synthèse statique.
English
Multimodal deep search requires an agent to solve open-world problems by chaining search, tool use, and visual reasoning over evolving textual and visual context. Two bottlenecks limit current systems. First, existing tool-use harnesses treat images returned by search, browsing, or transformation as transient outputs, so intermediate visual evidence cannot be re-consumed by later tools. Second, training data is usually built by fixed curation recipes that cannot track the target agent's evolving capability. To address these challenges, we first introduce a visual-native agent harness centered on an image bank reference protocol, which registers every tool-returned image as an addressable reference and makes intermediate visual evidence reusable by later tools. On top of this harness, On-policy Data Evolution (ODE) runs a closed-loop data generator that refines itself across rounds from rollouts of the policy being trained. This per-round refinement makes each round's data target what the current policy still needs to learn. The same framework supports both diverse supervised fine-tuning data and policy-aware reinforcement learning data curation, covering the full training lifecycle of the target agent. Across 8 multimodal deep search benchmarks, ODE improves the Qwen3-VL-8B agent from 24.9% to 39.0% on average, surpassing Gemini-2.5 Pro in standard agent-workflow setting (37.9%). At 30B, ODE raises the average score from 30.6% to 41.5%. Further analyses validate the effectiveness of image-bank reuse, especially on complex tasks requiring iterative visual refinement, while rollout-feedback evolution yields more grounded SFT traces and better policy-matched RL tasks than static synthesis.
PDF192May 14, 2026