HyperEyes: Zweigranulares, effizienzbewusstes Reinforcement Learning für parallele multimodale Suchagenten
HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents
May 8, 2026
Autoren: Guankai Li, Jiabin Chen, Yi Xu, Xichen Zhang, Yuan Lu
cs.AI
Zusammenfassung
Bestehende multimodale Suchagenten verarbeiten Zielentitäten sequenziell, indem sie pro Entität einen Tool-Aufruf tätigen und so redundante Interaktionsrunden anhäufen, sobald eine Abfrage in unabhängige Teilabfragen zerfällt. Wir argumentieren, dass effektive multimodale Agenten eher breiter als länger suchen sollten: Sie sollten mehrere verankerte Abfragen gleichzeitig innerhalb einer Runde versenden. Zu diesem Zweck stellen wir HyperEyes vor, einen parallelen multimodalen Suchagenten, der visuelle Verankerung und Abruf in einer einzigen atomaren Aktion vereint, sodass eine gleichzeitige Suche über mehrere Entitäten hinweg ermöglicht wird, während die Inferenzeffizienz als erstklassiges Trainingsziel behandelt wird. HyperEyes wird in zwei Phasen trainiert. Für die Kaltstart-Überwachung entwickeln wir eine parallele Datensynthese-Pipeline, die visuelle Multi-Entitäts- und textuelle Multi-Constraint-Abfragen abdeckt und effizienzorientierte Trajektorien durch progressives Zurückweisungs-Sampling kuratiert. Darauf aufbauend ist unser zentraler Beitrag ein zweistufiges effizienzbewusstes Reinforcement-Learning-Framework, das auf zwei Ebenen operiert. Auf der Makroebene schlagen wir TRACE (Tool-use Reference-Adaptive Cost Efficiency) vor, eine Trajektorien-basierte Belohnung, deren Referenz während des Trainings monoton verschärft wird, um überflüssige Tool-Aufrufe zu unterdrücken, ohne die echte Multi-Hop-Suche einzuschränken. Auf der Mikroebene passen wir On-Policy Distillation an, um dichte tokenweise Korrektursignale von einem externen Lehrer bei fehlgeschlagenen Rollouts zu injizieren und so die Kreditzuweisungsschwäche spärlicher Ergebniserwartungen zu mildern. Da bestehende Benchmarks die Genauigkeit als alleinige Metrik bewerten und die Inferenzkosten außer Acht lassen, führen wir IMEB ein, einen manuell kuratierten Benchmark mit 300 Instanzen, der sowohl Suchfähigkeit als auch Effizienz gemeinsam bewertet. Über sechs Benchmarks hinweg übertrifft HyperEyes-30B den stärksten vergleichbaren Open-Source-Agenten um 9,9 % in der Genauigkeit bei durchschnittlich 5,3-mal weniger Tool-Aufrufrunden.
English
Existing multimodal search agents process target entities sequentially, issuing one tool call per entity and accumulating redundant interaction rounds whenever a query decomposes into independent sub-retrievals. We argue that effective multimodal agents should search wider rather than longer: dispatching multiple grounded queries concurrently within a round. To this end, we present HyperEyes, a parallel multimodal search agent that fuses visual grounding and retrieval into a single atomic action, enabling concurrent search across multiple entities while treating inference efficiency as a first-class training objective. HyperEyes is trained in two stages. For cold-start supervision, we develop a Parallel-Amenable Data Synthesis Pipeline covering visual multi-entity and textual multi-constraint queries, curating efficiency-oriented trajectories via Progressive Rejection Sampling. Building on this, our central contribution, a Dual-Grained Efficiency-Aware Reinforcement Learning framework, operates at two levels. At the macro level, we propose TRACE (Tool-use Reference-Adaptive Cost Efficiency), a trajectory-level reward whose reference is monotonically tightened during training to suppress superfluous tool calls without restricting genuine multi-hop search. At the micro level, we adapt On-Policy Distillation to inject dense token-level corrective signals from an external teacher on failed rollouts, mitigating the credit-assignment deficiency of sparse outcome rewards. Since existing benchmarks evaluate accuracy as the sole metric, omitting inference cost, we introduce IMEB, a human-curated benchmark of 300 instances that jointly evaluates search capability and efficiency. Across six benchmarks, HyperEyes-30B surpasses the strongest comparable open-source agent by 9.9% in accuracy with 5.3x fewer tool-call rounds on average.