HyperEyes: 병렬 다중 모달 검색 에이전트를 위한 이중 세분화 효율성 인식 강화 학습
HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents
May 8, 2026
저자: Guankai Li, Jiabin Chen, Yi Xu, Xichen Zhang, Yuan Lu
cs.AI
초록
기존 멀티모달 검색 에이전트는 대상 엔티티를 순차적으로 처리하여 엔티티당 하나의 도구 호출을 발행하고, 질의가 독립적인 하위 검색으로 분해될 때마다 중복된 상호작용 라운드를 누적한다. 우리는 효과적인 멀티모달 에이전트는 더 길게 탐색하기보다 더 넓게 탐색해야 한다고 주장한다. 즉, 한 라운드 내에서 여러 개의 접지된 질의를 동시에 발송해야 한다. 이를 위해 우리는 시각적 접지와 검색을 단일 원자적 행동으로 융합하고, 추론 효율성을 일차적인 훈련 목표로 삼아 여러 엔티티에 대한 동시 검색을 가능하게 하는 병렬 멀티모달 검색 에이전트 HyperEyes를 제시한다.
HyperEyes는 두 단계로 훈련된다. 콜드 스타트 감독을 위해 시각적 다중 엔티티 및 텍스트 다중 제약 질의를 포괄하는 병렬 적합 데이터 합성 파이프라인(Parallel-Amenable Data Synthesis Pipeline)을 개발하고, 점진적 거부 샘플링(Progressive Rejection Sampling)을 통해 효율성 지향 궤적을 큐레이션한다. 이에 기반하여, 우리의 핵심 기여인 이중 세분화 효율성 인지 강화 학습(Dual-Grained Efficiency-Aware Reinforcement Learning) 프레임워크는 두 수준에서 작동한다. 거시적 수준에서는 TRACE(Tool-use Reference-Adaptive Cost Efficiency)를 제안한다. 이는 궤적 수준의 보상으로, 참조값이 훈련 중 단조롭게 강화되어 진정한 다중 홉 검색을 제한하지 않으면서 불필요한 도구 호출을 억제한다. 미시적 수준에서는 정책 기반 증류(On-Policy Distillation)를 적용하여 실패한 롤아웃에 대해 외부 교사로부터 조밀한 토큰 수준의 교정 신호를 주입함으로써, 희소한 결과 보상의 신용 할당 결함을 완화한다.
기존 벤치마크는 정확도를 유일한 지표로 평가하여 추론 비용을 생략하기 때문에, 우리는 검색 능력과 효율성을 함께 평가하는 인간 큐레이션 벤치마크인 IMEB(300개 인스턴스)를 도입한다. 6개 벤치마크에서 HyperEyes-30B는 가장 강력한 비교 가능한 오픈소스 에이전트를 정확도 9.9% 능가하면서 평균 도구 호출 라운드 수는 5.3배 적다.
English
Existing multimodal search agents process target entities sequentially, issuing one tool call per entity and accumulating redundant interaction rounds whenever a query decomposes into independent sub-retrievals. We argue that effective multimodal agents should search wider rather than longer: dispatching multiple grounded queries concurrently within a round. To this end, we present HyperEyes, a parallel multimodal search agent that fuses visual grounding and retrieval into a single atomic action, enabling concurrent search across multiple entities while treating inference efficiency as a first-class training objective. HyperEyes is trained in two stages. For cold-start supervision, we develop a Parallel-Amenable Data Synthesis Pipeline covering visual multi-entity and textual multi-constraint queries, curating efficiency-oriented trajectories via Progressive Rejection Sampling. Building on this, our central contribution, a Dual-Grained Efficiency-Aware Reinforcement Learning framework, operates at two levels. At the macro level, we propose TRACE (Tool-use Reference-Adaptive Cost Efficiency), a trajectory-level reward whose reference is monotonically tightened during training to suppress superfluous tool calls without restricting genuine multi-hop search. At the micro level, we adapt On-Policy Distillation to inject dense token-level corrective signals from an external teacher on failed rollouts, mitigating the credit-assignment deficiency of sparse outcome rewards. Since existing benchmarks evaluate accuracy as the sole metric, omitting inference cost, we introduce IMEB, a human-curated benchmark of 300 instances that jointly evaluates search capability and efficiency. Across six benchmarks, HyperEyes-30B surpasses the strongest comparable open-source agent by 9.9% in accuracy with 5.3x fewer tool-call rounds on average.