ChatPaper.aiChatPaper

Поиск и уточнение в процессе мышления: автономное рассуждение с расширением поиска в больших языковых моделях

Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs

May 16, 2025
Авторы: Yaorui Shi, Shihan Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang
cs.AI

Аннотация

Крупные языковые модели продемонстрировали впечатляющие способности к рассуждению, но их возможности ограничены объемом имеющихся знаний. Подход, основанный на извлечении информации для усиления рассуждений, смягчает это ограничение, позволяя языковым моделям запрашивать внешние ресурсы. Однако существующие методы часто извлекают нерелевантную или зашумленную информацию, что затрудняет точное рассуждение. В данной статье мы предлагаем AutoRefine — фреймворк для пост-обучения с использованием обучения с подкреплением, который реализует новую парадигму «поиск и уточнение в процессе мышления». AutoRefine вводит явные шаги уточнения знаний между последовательными запросами, что позволяет модели итеративно фильтровать, обобщать и организовывать доказательства перед генерацией ответа. Кроме того, мы включаем специализированные вознаграждения, связанные с извлечением информации, наряду с вознаграждениями за правильность ответа, используя оптимизацию групповой относительной политики. Эксперименты на бенчмарках для одношаговых и многошаговых вопросно-ответных задач показывают, что AutoRefine значительно превосходит существующие подходы, особенно в сложных сценариях многошагового рассуждения. Детальный анализ демонстрирует, что AutoRefine выполняет частые и более качественные запросы, а также эффективно синтезирует доказательства.
English
Large language models have demonstrated impressive reasoning capabilities but are inherently limited by their knowledge reservoir. Retrieval-augmented reasoning mitigates this limitation by allowing LLMs to query external resources, but existing methods often retrieve irrelevant or noisy information, hindering accurate reasoning. In this paper, we propose AutoRefine, a reinforcement learning post-training framework that adopts a new ``search-and-refine-during-think'' paradigm. AutoRefine introduces explicit knowledge refinement steps between successive search calls, enabling the model to iteratively filter, distill, and organize evidence before generating an answer. Furthermore, we incorporate tailored retrieval-specific rewards alongside answer correctness rewards using group relative policy optimization. Experiments on single-hop and multi-hop QA benchmarks demonstrate that AutoRefine significantly outperforms existing approaches, particularly in complex, multi-hop reasoning scenarios. Detailed analysis shows that AutoRefine issues frequent, higher-quality searches and synthesizes evidence effectively.

Summary

AI-Generated Summary

PDF51May 28, 2025