HyperEyes: Dubbelkorrelig Efficiëntiebewust Versterkingsleren voor Parallelle Multimodale Zoekagenten

Samenvatting

Bestaande multimodale zoekagenten verwerken doeldomeinen sequentieel, waarbij ze per entiteit één tool-aanroep doen en cumulatieve overbodige interactierondes genereren wanneer een vraag uiteenvalt in onafhankelijke subopvragingen. Wij stellen dat effectieve multimodale agenten breder in plaats van langer moeten zoeken: ze moeten binnen één ronde meerdere gefundeerde query's gelijktijdig uitzenden. Daartoe presenteren we HyperEyes, een parallelle multimodale zoekagent die visuele grounding en retrieval in één atomaire actie samenvoegt, waardoor gelijktijdig zoeken naar meerdere entiteiten mogelijk wordt en de inferentie-efficiëntie als een eersteklas trainingsdoel wordt behandeld. HyperEyes wordt in twee fasen getraind. Voor koude-start supervisie ontwikkelen we een voor parallelle verwerking geschikte datasynthesepijplijn die zowel visuele multi-entiteitsvragen als tekstuele multi-constraint vragen omvat, en via Progressieve Verwerpingssteekproef efficiëntiegerichte trajecten cureert. Voortbouwend hierop is onze centrale bijdrage, een Dual-Grained Efficiency-Aware Reinforcement Learning-raamwerk, werkzaam op twee niveaus. Op macroniveau stellen we TRACE (Tool-use Reference-Adaptive Cost Efficiency) voor, een beloning op trajectniveau waarvan de referentie tijdens de training monotoon wordt aangescherpt om overbodige tool-aanroepen te onderdrukken zonder legitieme meerhopszoekopdrachten te beperken. Op microniveau passen we On-Policy Distillation aan om dichte token-niveau corrigerende signalen van een externe leraar te injecteren bij mislukte uitrols, wat het credit-assignmentprobleem van schaarse uitkomstbeloningen vermindert. Aangezien bestaande benchmarks alleen nauwkeurigheid als maatstaf gebruiken en inferentiekosten negeren, introduceren we IMEB, een door mensen samengestelde benchmark van 300 instanties die zowel zoekcapaciteit als efficiëntie gezamenlijk evalueert. Op zes benchmarks overtreft HyperEyes-30B de sterkste vergelijkbare open-source agent met 9,9% in nauwkeurigheid en gemiddeld 5,3x minder tool-aanroeprondes.

English

Existing multimodal search agents process target entities sequentially, issuing one tool call per entity and accumulating redundant interaction rounds whenever a query decomposes into independent sub-retrievals. We argue that effective multimodal agents should search wider rather than longer: dispatching multiple grounded queries concurrently within a round. To this end, we present HyperEyes, a parallel multimodal search agent that fuses visual grounding and retrieval into a single atomic action, enabling concurrent search across multiple entities while treating inference efficiency as a first-class training objective. HyperEyes is trained in two stages. For cold-start supervision, we develop a Parallel-Amenable Data Synthesis Pipeline covering visual multi-entity and textual multi-constraint queries, curating efficiency-oriented trajectories via Progressive Rejection Sampling. Building on this, our central contribution, a Dual-Grained Efficiency-Aware Reinforcement Learning framework, operates at two levels. At the macro level, we propose TRACE (Tool-use Reference-Adaptive Cost Efficiency), a trajectory-level reward whose reference is monotonically tightened during training to suppress superfluous tool calls without restricting genuine multi-hop search. At the micro level, we adapt On-Policy Distillation to inject dense token-level corrective signals from an external teacher on failed rollouts, mitigating the credit-assignment deficiency of sparse outcome rewards. Since existing benchmarks evaluate accuracy as the sole metric, omitting inference cost, we introduce IMEB, a human-curated benchmark of 300 instances that jointly evaluates search capability and efficiency. Across six benchmarks, HyperEyes-30B surpasses the strongest comparable open-source agent by 9.9% in accuracy with 5.3x fewer tool-call rounds on average.

HyperEyes: Dubbelkorrelig Efficiëntiebewust Versterkingsleren voor Parallelle Multimodale Zoekagenten

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

Samenvatting

Support