Critic-R: Улучшение агентного поиска с использованием инструктивно-настроенных ретриверов с интроспективной обратной связью на естественном языке

Аннотация

Агентные поисковые системы итеративно взаимодействуют с моделями извлечения информации для ответа на сложные запросы. Несмотря на значительный прогресс, оптимизация ретриверов для агентного поиска остается сложной задачей, часто требующей интенсивного совместного обучения или эталонных аннотаций, что ограничивает применимость в реальных условиях. Мы предлагаем Critic-R — фреймворк, который явно замыкает обратную связь между агентом рассуждений и моделью извлечения как на этапе инференса, так и на этапе обучения. Critic-R вводит модель-критик, которая оценивает интроспективный след рассуждений агента после потребления извлеченных свидетельств, чтобы определить, достаточно ли извлеченный контекст поддерживает следующий шаг рассуждений. Critic-R включает два взаимодополняющих механизма: Critic-R-Zero — цикл уточнения запроса на этапе инференса, который итеративно переписывает запросы и инструкции по извлечению, и Critic-Embed — подход к оптимизации моделей извлечения, использующий успешные и неудачные траектории уточнения в качестве автоматического контроля без необходимости ручной аннотации релевантности. Мы оцениваем Critic-R на наборах данных HotpotQA, 2WikiMultihopQA, MuSiQue и Bamboogle. Результаты показывают, что Critic-R значительно улучшает как качество извлечения информации, так и точность итогового ответа.

English

Agentic search systems iteratively interact with retrieval models to answer complex queries. Despite substantial progress, optimizing retrievers for agentic search remains challenging, often requiring heavy co-training or gold-standard annotations that limit real-world applicability. We propose Critic-R, a framework that explicitly closes the feedback loop between the reasoning agent and the retrieval model during both inference and training. Critic-R introduces a critic model that evaluates the agent's introspective reasoning trace after consuming retrieved evidence to determine whether the retrieved context sufficiently supports the next reasoning step. Critic-R has two complementary mechanisms: Critic-R-Zero, an inference-time query refinement loop that iteratively rewrites queries and retrieval instructions, and Critic-Embed, an optimization approach for retrieval models that leverages successful and failed refinement trajectories as automatic supervision without requiring manual relevance annotation. We evaluate Critic-R on HotpotQA, 2WikiMultihopQA, MuSiQue, and Bamboogle. Results show that Critic-R significantly improves both retrieval quality and downstream answer accuracy.