Critic-R: Mejorando la búsqueda agentiva mediante recuperadores ajustados por instrucciones con retroalimentación introspectiva en lenguaje natural

Resumen

Los sistemas de búsqueda agentiva interactúan iterativamente con modelos de recuperación para responder consultas complejas. A pesar de los avances significativos, optimizar los recuperadores para la búsqueda agentiva sigue siendo un desafío, ya que a menudo requiere un coentrenamiento intensivo o anotaciones de referencia estándar que limitan la aplicabilidad en el mundo real. Proponemos Critic-R, un marco que cierra explícitamente el ciclo de retroalimentación entre el agente de razonamiento y el modelo de recuperación durante la inferencia y el entrenamiento. Critic-R introduce un modelo crítico que evalúa la traza de razonamiento introspectivo del agente después de consumir evidencia recuperada, para determinar si el contexto recuperado respalda suficientemente el siguiente paso de razonamiento. Critic-R cuenta con dos mecanismos complementarios: Critic-R-Zero, un bucle de refinamiento de consultas en tiempo de inferencia que reescribe iterativamente las consultas y las instrucciones de recuperación, y Critic-Embed, un enfoque de optimización para modelos de recuperación que aprovecha las trayectorias de refinamiento exitosas y fallidas como supervisión automática, sin requerir anotaciones manuales de relevancia. Evaluamos Critic-R en HotpotQA, 2WikiMultihopQA, MuSiQue y Bamboogle. Los resultados muestran que Critic-R mejora significativamente tanto la calidad de la recuperación como la precisión de las respuestas posteriores.

English

Agentic search systems iteratively interact with retrieval models to answer complex queries. Despite substantial progress, optimizing retrievers for agentic search remains challenging, often requiring heavy co-training or gold-standard annotations that limit real-world applicability. We propose Critic-R, a framework that explicitly closes the feedback loop between the reasoning agent and the retrieval model during both inference and training. Critic-R introduces a critic model that evaluates the agent's introspective reasoning trace after consuming retrieved evidence to determine whether the retrieved context sufficiently supports the next reasoning step. Critic-R has two complementary mechanisms: Critic-R-Zero, an inference-time query refinement loop that iteratively rewrites queries and retrieval instructions, and Critic-Embed, an optimization approach for retrieval models that leverages successful and failed refinement trajectories as automatic supervision without requiring manual relevance annotation. We evaluate Critic-R on HotpotQA, 2WikiMultihopQA, MuSiQue, and Bamboogle. Results show that Critic-R significantly improves both retrieval quality and downstream answer accuracy.