HyperEyes : apprentissage par renforcement sensible à l'efficacité à double granularité pour agents parallèles de recherche multimodale

Résumé

Les agents de recherche multimodaux existants traitent les entités cibles de manière séquentielle, en effectuant un appel d'outil par entité et en accumulant des tours d'interaction redondants dès qu'une requête se décompose en sous-recherches indépendantes. Nous soutenons que les agents multimodaux efficaces devraient rechercher plus largement plutôt que plus longuement : déclencher simultanément plusieurs requêtes ancrées au sein d'un même tour. À cette fin, nous présentons HyperEyes, un agent de recherche multimodal parallèle qui fusionne l'ancrage visuel et la recherche en une seule action atomique, permettant une recherche concurrente sur plusieurs entités tout en traitant l'efficacité d'inférence comme un objectif d'entraînement de premier plan. HyperEyes est entraîné en deux étapes. Pour la supervision à froid, nous développons un pipeline de synthèse de données propice au parallélisme couvrant les requêtes multi-entités visuelles et multi-contraintes textuelles, en élaborant des trajectoires orientées vers l'efficacité via un échantillonnage par rejet progressif. Sur cette base, notre contribution centrale, un cadre d'apprentissage par renforcement sensible à l'efficacité à double granularité, opère à deux niveaux. Au niveau macro, nous proposons TRACE (Tool-use Reference-Adaptive Cost Efficiency), une récompense au niveau de la trajectoire dont la référence est resserrée de manière monotone pendant l'entraînement pour supprimer les appels d'outils superflus sans restreindre la recherche multi-sauts authentique. Au niveau micro, nous adaptons la distillation sur politique pour injecter des signaux correctifs denses au niveau des tokens provenant d'un enseignant externe sur les lancements ayant échoué, atténuant ainsi le déficit d'attribution de crédit des récompenses de résultat éparses. Étant donné que les référentiels existants évaluent uniquement la précision comme métrique, omettant le coût d'inférence, nous introduisons IMEB, un référentiel élaboré manuellement de 300 instances qui évalue conjointement la capacité de recherche et l'efficacité. Sur six référentiels, HyperEyes-30B surpasse l'agent open source comparable le plus fort de 9,9 % en précision avec en moyenne 5,3 fois moins de tours d'appels d'outils.

English

Existing multimodal search agents process target entities sequentially, issuing one tool call per entity and accumulating redundant interaction rounds whenever a query decomposes into independent sub-retrievals. We argue that effective multimodal agents should search wider rather than longer: dispatching multiple grounded queries concurrently within a round. To this end, we present HyperEyes, a parallel multimodal search agent that fuses visual grounding and retrieval into a single atomic action, enabling concurrent search across multiple entities while treating inference efficiency as a first-class training objective. HyperEyes is trained in two stages. For cold-start supervision, we develop a Parallel-Amenable Data Synthesis Pipeline covering visual multi-entity and textual multi-constraint queries, curating efficiency-oriented trajectories via Progressive Rejection Sampling. Building on this, our central contribution, a Dual-Grained Efficiency-Aware Reinforcement Learning framework, operates at two levels. At the macro level, we propose TRACE (Tool-use Reference-Adaptive Cost Efficiency), a trajectory-level reward whose reference is monotonically tightened during training to suppress superfluous tool calls without restricting genuine multi-hop search. At the micro level, we adapt On-Policy Distillation to inject dense token-level corrective signals from an external teacher on failed rollouts, mitigating the credit-assignment deficiency of sparse outcome rewards. Since existing benchmarks evaluate accuracy as the sole metric, omitting inference cost, we introduce IMEB, a human-curated benchmark of 300 instances that jointly evaluates search capability and efficiency. Across six benchmarks, HyperEyes-30B surpasses the strongest comparable open-source agent by 9.9% in accuracy with 5.3x fewer tool-call rounds on average.