Búsqueda-o1: Modelos de Razonamiento Amplios Mejorados con Búsqueda Agente
Search-o1: Agentic Search-Enhanced Large Reasoning Models
January 9, 2025
Autores: Xiaoxi Li, Guanting Dong, Jiajie Jin, Yuyao Zhang, Yujia Zhou, Yutao Zhu, Peitian Zhang, Zhicheng Dou
cs.AI
Resumen
Los modelos de razonamiento extenso (LRMs) como OpenAI-o1 han demostrado impresionantes capacidades de razonamiento a largo plazo a través de un aprendizaje por refuerzo a gran escala. Sin embargo, sus procesos de razonamiento prolongados a menudo sufren de insuficiencia de conocimiento, lo que conduce a incertidumbres frecuentes y posibles errores. Para abordar esta limitación, presentamos Search-o1, un marco que mejora los LRMs con un mecanismo de generación aumentada por recuperación agente (RAG) y un módulo de Razón-en-Documents para refinar los documentos recuperados. Search-o1 integra un flujo de trabajo de búsqueda agente en el proceso de razonamiento, permitiendo la recuperación dinámica de conocimiento externo cuando los LRMs encuentran puntos de conocimiento inciertos. Además, debido a la naturaleza detallada de los documentos recuperados, diseñamos un módulo separado de Razón-en-Documents para analizar profundamente la información recuperada antes de inyectarla en la cadena de razonamiento, minimizando el ruido y preservando un flujo de razonamiento coherente. Experimentos extensos en tareas de razonamiento complejas en ciencia, matemáticas y codificación, así como en seis bancos de pruebas de preguntas y respuestas de dominio abierto, demuestran el sólido rendimiento de Search-o1. Este enfoque mejora la confiabilidad y aplicabilidad de los LRMs en tareas de razonamiento complejas, allanando el camino para sistemas inteligentes más confiables y versátiles. El código está disponible en https://github.com/sunnynexus/Search-o1.
English
Large reasoning models (LRMs) like OpenAI-o1 have demonstrated impressive
long stepwise reasoning capabilities through large-scale reinforcement
learning. However, their extended reasoning processes often suffer from
knowledge insufficiency, leading to frequent uncertainties and potential
errors. To address this limitation, we introduce Search-o1, a
framework that enhances LRMs with an agentic retrieval-augmented generation
(RAG) mechanism and a Reason-in-Documents module for refining retrieved
documents. Search-o1 integrates an agentic search workflow into the reasoning
process, enabling dynamic retrieval of external knowledge when LRMs encounter
uncertain knowledge points. Additionally, due to the verbose nature of
retrieved documents, we design a separate Reason-in-Documents module to deeply
analyze the retrieved information before injecting it into the reasoning chain,
minimizing noise and preserving coherent reasoning flow. Extensive experiments
on complex reasoning tasks in science, mathematics, and coding, as well as six
open-domain QA benchmarks, demonstrate the strong performance of Search-o1.
This approach enhances the trustworthiness and applicability of LRMs in complex
reasoning tasks, paving the way for more reliable and versatile intelligent
systems. The code is available at
https://github.com/sunnynexus/Search-o1.Summary
AI-Generated Summary