Critic-R: Verbesserung der agentischen Suche mittels instruktionsoptimierter Retriever mit natürlichem sprachlichem introspektivem Feedback

Zusammenfassung

Agentische Suchsysteme interagieren iterativ mit Retrievalmodellen, um komplexe Fragen zu beantworten. Trotz erheblicher Fortschritte bleibt die Optimierung von Retrievalmodellen für agentische Suche herausfordernd und erfordert oft aufwändiges Co-Training oder Goldstandard-Annotationen, was die praktische Anwendbarkeit einschränkt. Wir schlagen Critic-R vor, ein Framework, das die Rückkopplungsschleife zwischen dem Reasoning-Agenten und dem Retrievalmodell sowohl während der Inferenz als auch beim Training explizit schließt. Critic-R führt ein Kritikmodell ein, das die introspektive Denkspur des Agenten nach der Aufnahme von abgerufenen Belegen bewertet, um festzustellen, ob der abgerufene Kontext den nächsten Denkschritt ausreichend unterstützt. Critic-R verfügt über zwei komplementäre Mechanismen: Critic-R-Zero, eine Abfrageverfeinerungsschleife zur Inferenzzeit, die Abfragen und Retrievalanweisungen iterativ umschreibt, und Critic-Embed, ein Optimierungsansatz für Retrievalmodelle, der erfolgreiche und fehlgeschlagene Verfeinerungstrajektorien als automatische Überwachung nutzt, ohne manuelle Relevanzannotationen zu benötigen. Wir evaluieren Critic-R auf HotpotQA, 2WikiMultihopQA, MuSiQue und Bamboogle. Die Ergebnisse zeigen, dass Critic-R sowohl die Retrievalqualität als auch die downstream-Antwortgenauigkeit signifikant verbessert.

English

Agentic search systems iteratively interact with retrieval models to answer complex queries. Despite substantial progress, optimizing retrievers for agentic search remains challenging, often requiring heavy co-training or gold-standard annotations that limit real-world applicability. We propose Critic-R, a framework that explicitly closes the feedback loop between the reasoning agent and the retrieval model during both inference and training. Critic-R introduces a critic model that evaluates the agent's introspective reasoning trace after consuming retrieved evidence to determine whether the retrieved context sufficiently supports the next reasoning step. Critic-R has two complementary mechanisms: Critic-R-Zero, an inference-time query refinement loop that iteratively rewrites queries and retrieval instructions, and Critic-Embed, an optimization approach for retrieval models that leverages successful and failed refinement trajectories as automatic supervision without requiring manual relevance annotation. We evaluate Critic-R on HotpotQA, 2WikiMultihopQA, MuSiQue, and Bamboogle. Results show that Critic-R significantly improves both retrieval quality and downstream answer accuracy.