Suche-o1: Agentic Search-verbesserte große Schlussfolgerungsmodelle
Search-o1: Agentic Search-Enhanced Large Reasoning Models
January 9, 2025
Autoren: Xiaoxi Li, Guanting Dong, Jiajie Jin, Yuyao Zhang, Yujia Zhou, Yutao Zhu, Peitian Zhang, Zhicheng Dou
cs.AI
Zusammenfassung
Große Schlussfolgerungsmodelle (LRMs) wie OpenAI-o1 haben beeindruckende langfristige schrittweise Schlussfolgerungsfähigkeiten durch groß angelegtes Verstärkungslernen demonstriert. Ihre erweiterten Schlussfolgerungsprozesse leiden jedoch oft an Wissensmangel, was zu häufigen Unsicherheiten und potenziellen Fehlern führt. Um diese Einschränkung zu beheben, stellen wir Search-o1 vor, ein Framework, das LRMs mit einem agierenden Abruf-erweiterten Generierungsmechanismus (RAG) und einem Reason-in-Documents-Modul zur Verfeinerung abgerufener Dokumente verbessert. Search-o1 integriert einen agierenden Suchworkflow in den Schlussfolgerungsprozess, der LRMs ermöglicht, externes Wissen dynamisch abzurufen, wenn sie auf unsichere Wissenspunkte stoßen. Zusätzlich, aufgrund der ausführlichen Natur der abgerufenen Dokumente, entwerfen wir ein separates Reason-in-Documents-Modul, um die abgerufenen Informationen vor dem Einspeisen in die Schlussfolgerungskette gründlich zu analysieren, um Störgeräusche zu minimieren und den kohärenten Schlussfolgerungsfluss zu bewahren. Umfangreiche Experimente zu komplexen Schlussfolgerungsaufgaben in den Bereichen Wissenschaft, Mathematik und Codierung sowie sechs Open-Domain-QA-Benchmarks zeigen die starke Leistung von Search-o1. Dieser Ansatz verbessert die Vertrauenswürdigkeit und Anwendbarkeit von LRMs bei komplexen Schlussfolgerungsaufgaben und ebnet den Weg für zuverlässigere und vielseitigere intelligente Systeme. Der Code ist verfügbar unter https://github.com/sunnynexus/Search-o1.
English
Large reasoning models (LRMs) like OpenAI-o1 have demonstrated impressive
long stepwise reasoning capabilities through large-scale reinforcement
learning. However, their extended reasoning processes often suffer from
knowledge insufficiency, leading to frequent uncertainties and potential
errors. To address this limitation, we introduce Search-o1, a
framework that enhances LRMs with an agentic retrieval-augmented generation
(RAG) mechanism and a Reason-in-Documents module for refining retrieved
documents. Search-o1 integrates an agentic search workflow into the reasoning
process, enabling dynamic retrieval of external knowledge when LRMs encounter
uncertain knowledge points. Additionally, due to the verbose nature of
retrieved documents, we design a separate Reason-in-Documents module to deeply
analyze the retrieved information before injecting it into the reasoning chain,
minimizing noise and preserving coherent reasoning flow. Extensive experiments
on complex reasoning tasks in science, mathematics, and coding, as well as six
open-domain QA benchmarks, demonstrate the strong performance of Search-o1.
This approach enhances the trustworthiness and applicability of LRMs in complex
reasoning tasks, paving the way for more reliable and versatile intelligent
systems. The code is available at
https://github.com/sunnynexus/Search-o1.Summary
AI-Generated Summary