ChatPaper.aiChatPaper

Hacia la evolución de datos basada en políticas para agentes de búsqueda profunda multimodales nativos visuales

Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents

May 11, 2026
Autores: Shijue Huang, Hangyu Guo, Chenxin Li, Junting Lu, Xinyu Geng, Zhaochen Su, Zhenyu Li, Shuang Chen, Hongru Wang, Yi R. Fung
cs.AI

Resumen

La búsqueda profunda multimodal requiere que un agente resuelva problemas de mundo abierto encadenando búsqueda, uso de herramientas y razonamiento visual sobre un contexto textual y visual en evolución. Dos cuellos de botella limitan los sistemas actuales. Primero, los arneses de uso de herramientas existentes tratan las imágenes devueltas por búsqueda, navegación o transformación como salidas transitorias, por lo que la evidencia visual intermedia no puede ser reutilizada por herramientas posteriores. Segundo, los datos de entrenamiento suelen construirse mediante recetas de curación fijas que no pueden rastrear la capacidad cambiante del agente objetivo. Para abordar estos desafíos, primero introducimos un arnés de agente nativo visual centrado en un protocolo de referencia de banco de imágenes, que registra cada imagen devuelta por una herramienta como una referencia direccionable y hace que la evidencia visual intermedia sea reutilizable por herramientas posteriores. Sobre este arnés, la Evolución de Datos en Política (On-policy Data Evolution, ODE) ejecuta un generador de datos de bucle cerrado que se refina a sí mismo a lo largo de rondas a partir de los despliegues de la política que se está entrenando. Este refinamiento por ronda hace que los datos de cada ronda se dirijan a lo que la política actual aún necesita aprender. El mismo marco admite tanto datos diversos de ajuste fino supervisado como la curación de datos de aprendizaje por refuerzo consciente de la política, cubriendo todo el ciclo de vida de entrenamiento del agente objetivo. En 8 puntos de referencia de búsqueda profunda multimodal, ODE mejora el agente Qwen3-VL-8B de 24.9% a 39.0% en promedio, superando a Gemini-2.5 Pro en la configuración estándar de flujo de trabajo de agente (37.9%). En 30B, ODE eleva la puntuación promedio de 30.6% a 41.5%. Análisis adicionales validan la efectividad de la reutilización del banco de imágenes, especialmente en tareas complejas que requieren refinamiento visual iterativo, mientras que la evolución basada en retroalimentación de despliegues produce trazas de ajuste fino supervisado más fundamentadas y tareas de aprendizaje por refuerzo mejor alineadas con la política que la síntesis estática.
English
Multimodal deep search requires an agent to solve open-world problems by chaining search, tool use, and visual reasoning over evolving textual and visual context. Two bottlenecks limit current systems. First, existing tool-use harnesses treat images returned by search, browsing, or transformation as transient outputs, so intermediate visual evidence cannot be re-consumed by later tools. Second, training data is usually built by fixed curation recipes that cannot track the target agent's evolving capability. To address these challenges, we first introduce a visual-native agent harness centered on an image bank reference protocol, which registers every tool-returned image as an addressable reference and makes intermediate visual evidence reusable by later tools. On top of this harness, On-policy Data Evolution (ODE) runs a closed-loop data generator that refines itself across rounds from rollouts of the policy being trained. This per-round refinement makes each round's data target what the current policy still needs to learn. The same framework supports both diverse supervised fine-tuning data and policy-aware reinforcement learning data curation, covering the full training lifecycle of the target agent. Across 8 multimodal deep search benchmarks, ODE improves the Qwen3-VL-8B agent from 24.9% to 39.0% on average, surpassing Gemini-2.5 Pro in standard agent-workflow setting (37.9%). At 30B, ODE raises the average score from 30.6% to 41.5%. Further analyses validate the effectiveness of image-bank reuse, especially on complex tasks requiring iterative visual refinement, while rollout-feedback evolution yields more grounded SFT traces and better policy-matched RL tasks than static synthesis.
PDF192May 14, 2026