시각-네이티브 다중 모달 심층 검색 에이전트를 위한 온-정책 데이터 진화를 향하여
Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents
May 11, 2026
저자: Shijue Huang, Hangyu Guo, Chenxin Li, Junting Lu, Xinyu Geng, Zhaochen Su, Zhenyu Li, Shuang Chen, Hongru Wang, Yi R. Fung
cs.AI
초록
멀티모달 딥 서치는 에이전트가 변화하는 텍스트 및 시각적 맥락 위에서 검색, 도구 사용, 시각적 추론을 연쇄적으로 수행하며 개방형 문제를 해결하도록 요구한다. 두 가지 병목 현상이 현재 시스템을 제한한다. 첫째, 기존 도구 사용 하네스는 검색, 브라우징 또는 변환을 통해 반환된 이미지를 일시적 출력으로 처리하므로, 중간 시각적 증거를 이후 도구가 재사용할 수 없다. 둘째, 훈련 데이터는 일반적으로 고정된 큐레이션 레시피로 구축되어 대상 에이전트의 진화하는 능력을 추적할 수 없다. 이러한 문제를 해결하기 위해, 우리는 먼저 이미지 뱅크 참조 프로토콜을 중심으로 한 시각적 네이티브 에이전트 하네스를 도입한다. 이 프로토콜은 모든 도구 반환 이미지를 주소 지정 가능한 참조로 등록하여 중간 시각적 증거를 이후 도구가 재사용할 수 있게 한다. 이 하네스 위에서, 온-정책 데이터 진화(ODE)는 훈련 중인 정책의 롤아웃으로부터 여러 라운드에 걸쳐 스스로를 개선하는 폐루프 데이터 생성기를 실행한다. 이 라운드별 개선을 통해 각 라운드의 데이터는 현재 정책이 여전히 학습해야 할 것을 목표로 한다. 동일한 프레임워크는 다양한 지도 미세 조정 데이터와 정책 인식 강화 학습 데이터 큐레이션을 모두 지원하여, 대상 에이전트의 전체 훈련 수명 주기를 포괄한다. 8개의 멀티모달 딥 서치 벤치마크에서 ODE는 Qwen3-VL-8B 에이전트의 평균 성능을 24.9%에서 39.0%로 향상시켜, 표준 에이전트 워크플로 설정(37.9%)에서 Gemini-2.5 Pro를 능가한다. 30B 규모에서 ODE는 평균 점수를 30.6%에서 41.5%로 높인다. 추가 분석은 이미지 뱅크 재사용의 효과성을 입증하며, 특히 반복적 시각적 개선이 필요한 복잡한 작업에서 그러하다. 반면, 롤아웃 피드백 진화는 정적 합성보다 더 근거 있는 SFT 추적과 더 나은 정책 일치 RL 작업을 생성한다.
English
Multimodal deep search requires an agent to solve open-world problems by chaining search, tool use, and visual reasoning over evolving textual and visual context. Two bottlenecks limit current systems. First, existing tool-use harnesses treat images returned by search, browsing, or transformation as transient outputs, so intermediate visual evidence cannot be re-consumed by later tools. Second, training data is usually built by fixed curation recipes that cannot track the target agent's evolving capability. To address these challenges, we first introduce a visual-native agent harness centered on an image bank reference protocol, which registers every tool-returned image as an addressable reference and makes intermediate visual evidence reusable by later tools. On top of this harness, On-policy Data Evolution (ODE) runs a closed-loop data generator that refines itself across rounds from rollouts of the policy being trained. This per-round refinement makes each round's data target what the current policy still needs to learn. The same framework supports both diverse supervised fine-tuning data and policy-aware reinforcement learning data curation, covering the full training lifecycle of the target agent. Across 8 multimodal deep search benchmarks, ODE improves the Qwen3-VL-8B agent from 24.9% to 39.0% on average, surpassing Gemini-2.5 Pro in standard agent-workflow setting (37.9%). At 30B, ODE raises the average score from 30.6% to 41.5%. Further analyses validate the effectiveness of image-bank reuse, especially on complex tasks requiring iterative visual refinement, while rollout-feedback evolution yields more grounded SFT traces and better policy-matched RL tasks than static synthesis.