Búsqueda-o1: Modelos de Razonamiento Amplios Mejorados con Búsqueda Agente

Resumen

Los modelos de razonamiento extenso (LRMs) como OpenAI-o1 han demostrado impresionantes capacidades de razonamiento a largo plazo a través de un aprendizaje por refuerzo a gran escala. Sin embargo, sus procesos de razonamiento prolongados a menudo sufren de insuficiencia de conocimiento, lo que conduce a incertidumbres frecuentes y posibles errores. Para abordar esta limitación, presentamos Search-o1, un marco que mejora los LRMs con un mecanismo de generación aumentada por recuperación agente (RAG) y un módulo de Razón-en-Documents para refinar los documentos recuperados. Search-o1 integra un flujo de trabajo de búsqueda agente en el proceso de razonamiento, permitiendo la recuperación dinámica de conocimiento externo cuando los LRMs encuentran puntos de conocimiento inciertos. Además, debido a la naturaleza detallada de los documentos recuperados, diseñamos un módulo separado de Razón-en-Documents para analizar profundamente la información recuperada antes de inyectarla en la cadena de razonamiento, minimizando el ruido y preservando un flujo de razonamiento coherente. Experimentos extensos en tareas de razonamiento complejas en ciencia, matemáticas y codificación, así como en seis bancos de pruebas de preguntas y respuestas de dominio abierto, demuestran el sólido rendimiento de Search-o1. Este enfoque mejora la confiabilidad y aplicabilidad de los LRMs en tareas de razonamiento complejas, allanando el camino para sistemas inteligentes más confiables y versátiles. El código está disponible en https://github.com/sunnynexus/Search-o1.

English

Large reasoning models (LRMs) like OpenAI-o1 have demonstrated impressive long stepwise reasoning capabilities through large-scale reinforcement learning. However, their extended reasoning processes often suffer from knowledge insufficiency, leading to frequent uncertainties and potential errors. To address this limitation, we introduce Search-o1, a framework that enhances LRMs with an agentic retrieval-augmented generation (RAG) mechanism and a Reason-in-Documents module for refining retrieved documents. Search-o1 integrates an agentic search workflow into the reasoning process, enabling dynamic retrieval of external knowledge when LRMs encounter uncertain knowledge points. Additionally, due to the verbose nature of retrieved documents, we design a separate Reason-in-Documents module to deeply analyze the retrieved information before injecting it into the reasoning chain, minimizing noise and preserving coherent reasoning flow. Extensive experiments on complex reasoning tasks in science, mathematics, and coding, as well as six open-domain QA benchmarks, demonstrate the strong performance of Search-o1. This approach enhances the trustworthiness and applicability of LRMs in complex reasoning tasks, paving the way for more reliable and versatile intelligent systems. The code is available at https://github.com/sunnynexus/Search-o1.