ZeroSearch: Incentivar la Capacidad de Búsqueda de los LLM sin Realizar Búsquedas

Resumen

La búsqueda efectiva de información es esencial para mejorar las capacidades de razonamiento y generación de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Investigaciones recientes han explorado el uso del aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar las capacidades de búsqueda de los LLMs mediante la interacción con motores de búsqueda en tiempo real en entornos del mundo real. Aunque estos enfoques muestran resultados prometedores, enfrentan dos desafíos principales: (1) Calidad impredecible de los documentos: La calidad de los documentos devueltos por los motores de búsqueda suele ser impredecible, lo que introduce ruido e inestabilidad en el proceso de entrenamiento. (2) Costos prohibitivos de las API: El entrenamiento de RL requiere ejecuciones frecuentes, lo que puede implicar cientos de miles de solicitudes de búsqueda, generando gastos sustanciales en API y limitando severamente la escalabilidad. Para abordar estos desafíos, presentamos ZeroSearch, un marco de aprendizaje por refuerzo que incentiva las capacidades de búsqueda de los LLMs sin interactuar con motores de búsqueda reales. Nuestro enfoque comienza con un ajuste fino supervisado ligero para transformar el LLM en un módulo de recuperación capaz de generar documentos tanto relevantes como ruidosos en respuesta a una consulta. Durante el entrenamiento de RL, empleamos una estrategia de ejecución basada en un currículo que degrada gradualmente la calidad de los documentos generados, fomentando progresivamente la capacidad de razonamiento del modelo al exponerlo a escenarios de recuperación cada vez más desafiantes. Experimentos extensos demuestran que ZeroSearch incentiva eficazmente las capacidades de búsqueda de los LLMs utilizando un LLM de 3B como módulo de recuperación. Notablemente, un módulo de recuperación de 7B logra un rendimiento comparable al del motor de búsqueda real, mientras que un módulo de 14B incluso lo supera. Además, generaliza bien tanto en modelos base como en modelos ajustados por instrucción de diversos tamaños de parámetros y es compatible con una amplia gama de algoritmos de RL.

English

Effective information searching is essential for enhancing the reasoning and generation capabilities of large language models (LLMs). Recent research has explored using reinforcement learning (RL) to improve LLMs' search capabilities by interacting with live search engines in real-world environments. While these approaches show promising results, they face two major challenges: (1) Uncontrolled Document Quality: The quality of documents returned by search engines is often unpredictable, introducing noise and instability into the training process. (2) Prohibitively High API Costs: RL training requires frequent rollouts, potentially involving hundreds of thousands of search requests, which incur substantial API expenses and severely constrain scalability. To address these challenges, we introduce ZeroSearch, a reinforcement learning framework that incentivizes the search capabilities of LLMs without interacting with real search engines. Our approach begins with lightweight supervised fine-tuning to transform the LLM into a retrieval module capable of generating both relevant and noisy documents in response to a query. During RL training, we employ a curriculum-based rollout strategy that incrementally degrades the quality of generated documents, progressively eliciting the model's reasoning ability by exposing it to increasingly challenging retrieval scenarios. Extensive experiments demonstrate that ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B LLM as the retrieval module. Remarkably, a 7B retrieval module achieves comparable performance to the real search engine, while a 14B retrieval module even surpasses it. Furthermore, it generalizes well across both base and instruction-tuned models of various parameter sizes and is compatible with a wide range of RL algorithms.

ZeroSearch: Incentivar la Capacidad de Búsqueda de los LLM sin Realizar Búsquedas

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

Resumen

Support