Critic-R : Améliorer la recherche agentique à l'aide de récupérateurs ajustés par instructions avec un retour introspectif en langage naturel

Résumé

Les systèmes de recherche agentiques interagissent de manière itérative avec les modèles de recherche pour répondre à des requêtes complexes. Malgré des progrès substantiels, l'optimisation des modèles de recherche pour la recherche agentique reste difficile, nécessitant souvent un co-apprentissage intensif ou des annotations de référence qui limitent leur applicabilité dans des contextes réels. Nous proposons Critic-R, un cadre qui ferme explicitement la boucle de rétroaction entre l'agent de raisonnement et le modèle de recherche, tant pendant l'inférence que l'apprentissage. Critic-R introduit un modèle critique qui évalue la trace de raisonnement introspectif de l'agent après avoir consommé les preuves récupérées, afin de déterminer si le contexte extrait soutient suffisamment l'étape de raisonnement suivante. Critic-R comporte deux mécanismes complémentaires : Critic-R-Zero, une boucle d'affinement de requête en temps d'inférence qui réécrit itérativement les requêtes et les instructions de recherche, et Critic-Embed, une approche d'optimisation des modèles de recherche qui utilise les trajectoires d'affinement réussies et échouées comme supervision automatique, sans nécessiter d'annotation manuelle de pertinence. Nous évaluons Critic-R sur HotpotQA, 2WikiMultihopQA, MuSiQue et Bamboogle. Les résultats montrent que Critic-R améliore significativement à la fois la qualité de la recherche et la précision des réponses en aval.

English

Agentic search systems iteratively interact with retrieval models to answer complex queries. Despite substantial progress, optimizing retrievers for agentic search remains challenging, often requiring heavy co-training or gold-standard annotations that limit real-world applicability. We propose Critic-R, a framework that explicitly closes the feedback loop between the reasoning agent and the retrieval model during both inference and training. Critic-R introduces a critic model that evaluates the agent's introspective reasoning trace after consuming retrieved evidence to determine whether the retrieved context sufficiently supports the next reasoning step. Critic-R has two complementary mechanisms: Critic-R-Zero, an inference-time query refinement loop that iteratively rewrites queries and retrieval instructions, and Critic-Embed, an optimization approach for retrieval models that leverages successful and failed refinement trajectories as automatic supervision without requiring manual relevance annotation. We evaluate Critic-R on HotpotQA, 2WikiMultihopQA, MuSiQue, and Bamboogle. Results show that Critic-R significantly improves both retrieval quality and downstream answer accuracy.