ZeroSearch: Incentivar a Capacidade de Busca de LLMs sem Realizar Buscas
ZeroSearch: Incentivize the Search Capability of LLMs without Searching
May 7, 2025
Autores: Hao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang
cs.AI
Resumo
A busca eficiente de informações é essencial para aprimorar as capacidades de raciocínio e geração de grandes modelos de linguagem (LLMs). Pesquisas recentes têm explorado o uso de aprendizado por reforço (RL) para melhorar as capacidades de busca dos LLMs por meio da interação com motores de busca reais em ambientes do mundo real. Embora essas abordagens apresentem resultados promissores, elas enfrentam dois grandes desafios: (1) Qualidade Incontrolável dos Documentos: A qualidade dos documentos retornados pelos motores de busca é frequentemente imprevisível, introduzindo ruído e instabilidade no processo de treinamento. (2) Custos Proibitivos de API: O treinamento de RL requer execuções frequentes, potencialmente envolvendo centenas de milhares de solicitações de busca, o que gera custos substanciais de API e limita severamente a escalabilidade. Para enfrentar esses desafios, apresentamos o ZeroSearch, uma estrutura de aprendizado por reforço que incentiva as capacidades de busca dos LLMs sem interagir com motores de busca reais. Nossa abordagem começa com um ajuste fino supervisionado leve para transformar o LLM em um módulo de recuperação capaz de gerar documentos relevantes e ruidosos em resposta a uma consulta. Durante o treinamento de RL, empregamos uma estratégia de execução baseada em currículo que degrada gradualmente a qualidade dos documentos gerados, eliciando progressivamente a capacidade de raciocínio do modelo ao expô-lo a cenários de recuperação cada vez mais desafiadores. Experimentos extensivos demonstram que o ZeroSearch incentiva efetivamente as capacidades de busca dos LLMs usando um LLM de 3B como módulo de recuperação. Notavelmente, um módulo de recuperação de 7B alcança desempenho comparável ao motor de busca real, enquanto um módulo de 14B até o supera. Além disso, ele generaliza bem tanto para modelos base quanto para modelos ajustados por instrução de vários tamanhos de parâmetros e é compatível com uma ampla gama de algoritmos de RL.
English
Effective information searching is essential for enhancing the reasoning and
generation capabilities of large language models (LLMs). Recent research has
explored using reinforcement learning (RL) to improve LLMs' search capabilities
by interacting with live search engines in real-world environments. While these
approaches show promising results, they face two major challenges: (1)
Uncontrolled Document Quality: The quality of documents returned by search
engines is often unpredictable, introducing noise and instability into the
training process. (2) Prohibitively High API Costs: RL training requires
frequent rollouts, potentially involving hundreds of thousands of search
requests, which incur substantial API expenses and severely constrain
scalability. To address these challenges, we introduce ZeroSearch, a
reinforcement learning framework that incentivizes the search capabilities of
LLMs without interacting with real search engines. Our approach begins with
lightweight supervised fine-tuning to transform the LLM into a retrieval module
capable of generating both relevant and noisy documents in response to a query.
During RL training, we employ a curriculum-based rollout strategy that
incrementally degrades the quality of generated documents, progressively
eliciting the model's reasoning ability by exposing it to increasingly
challenging retrieval scenarios. Extensive experiments demonstrate that
ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B
LLM as the retrieval module. Remarkably, a 7B retrieval module achieves
comparable performance to the real search engine, while a 14B retrieval module
even surpasses it. Furthermore, it generalizes well across both base and
instruction-tuned models of various parameter sizes and is compatible with a
wide range of RL algorithms.