ZeroSearch: Incentivar la Capacidad de Búsqueda de los LLM sin Realizar Búsquedas
ZeroSearch: Incentivize the Search Capability of LLMs without Searching
May 7, 2025
Autores: Hao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang
cs.AI
Resumen
La búsqueda efectiva de información es esencial para mejorar las capacidades de razonamiento y generación de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Investigaciones recientes han explorado el uso del aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar las capacidades de búsqueda de los LLMs mediante la interacción con motores de búsqueda en tiempo real en entornos del mundo real. Aunque estos enfoques muestran resultados prometedores, enfrentan dos desafíos principales: (1) Calidad impredecible de los documentos: La calidad de los documentos devueltos por los motores de búsqueda suele ser impredecible, lo que introduce ruido e inestabilidad en el proceso de entrenamiento. (2) Costos prohibitivos de las API: El entrenamiento de RL requiere ejecuciones frecuentes, lo que puede implicar cientos de miles de solicitudes de búsqueda, generando gastos sustanciales en API y limitando severamente la escalabilidad. Para abordar estos desafíos, presentamos ZeroSearch, un marco de aprendizaje por refuerzo que incentiva las capacidades de búsqueda de los LLMs sin interactuar con motores de búsqueda reales. Nuestro enfoque comienza con un ajuste fino supervisado ligero para transformar el LLM en un módulo de recuperación capaz de generar documentos tanto relevantes como ruidosos en respuesta a una consulta. Durante el entrenamiento de RL, empleamos una estrategia de ejecución basada en un currículo que degrada gradualmente la calidad de los documentos generados, fomentando progresivamente la capacidad de razonamiento del modelo al exponerlo a escenarios de recuperación cada vez más desafiantes. Experimentos extensos demuestran que ZeroSearch incentiva eficazmente las capacidades de búsqueda de los LLMs utilizando un LLM de 3B como módulo de recuperación. Notablemente, un módulo de recuperación de 7B logra un rendimiento comparable al del motor de búsqueda real, mientras que un módulo de 14B incluso lo supera. Además, generaliza bien tanto en modelos base como en modelos ajustados por instrucción de diversos tamaños de parámetros y es compatible con una amplia gama de algoritmos de RL.
English
Effective information searching is essential for enhancing the reasoning and
generation capabilities of large language models (LLMs). Recent research has
explored using reinforcement learning (RL) to improve LLMs' search capabilities
by interacting with live search engines in real-world environments. While these
approaches show promising results, they face two major challenges: (1)
Uncontrolled Document Quality: The quality of documents returned by search
engines is often unpredictable, introducing noise and instability into the
training process. (2) Prohibitively High API Costs: RL training requires
frequent rollouts, potentially involving hundreds of thousands of search
requests, which incur substantial API expenses and severely constrain
scalability. To address these challenges, we introduce ZeroSearch, a
reinforcement learning framework that incentivizes the search capabilities of
LLMs without interacting with real search engines. Our approach begins with
lightweight supervised fine-tuning to transform the LLM into a retrieval module
capable of generating both relevant and noisy documents in response to a query.
During RL training, we employ a curriculum-based rollout strategy that
incrementally degrades the quality of generated documents, progressively
eliciting the model's reasoning ability by exposing it to increasingly
challenging retrieval scenarios. Extensive experiments demonstrate that
ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B
LLM as the retrieval module. Remarkably, a 7B retrieval module achieves
comparable performance to the real search engine, while a 14B retrieval module
even surpasses it. Furthermore, it generalizes well across both base and
instruction-tuned models of various parameter sizes and is compatible with a
wide range of RL algorithms.Summary
AI-Generated Summary