ZeroSearch: Incentivar a Capacidade de Busca de LLMs sem Realizar Buscas

Resumo

A busca eficiente de informações é essencial para aprimorar as capacidades de raciocínio e geração de grandes modelos de linguagem (LLMs). Pesquisas recentes têm explorado o uso de aprendizado por reforço (RL) para melhorar as capacidades de busca dos LLMs por meio da interação com motores de busca reais em ambientes do mundo real. Embora essas abordagens apresentem resultados promissores, elas enfrentam dois grandes desafios: (1) Qualidade Incontrolável dos Documentos: A qualidade dos documentos retornados pelos motores de busca é frequentemente imprevisível, introduzindo ruído e instabilidade no processo de treinamento. (2) Custos Proibitivos de API: O treinamento de RL requer execuções frequentes, potencialmente envolvendo centenas de milhares de solicitações de busca, o que gera custos substanciais de API e limita severamente a escalabilidade. Para enfrentar esses desafios, apresentamos o ZeroSearch, uma estrutura de aprendizado por reforço que incentiva as capacidades de busca dos LLMs sem interagir com motores de busca reais. Nossa abordagem começa com um ajuste fino supervisionado leve para transformar o LLM em um módulo de recuperação capaz de gerar documentos relevantes e ruidosos em resposta a uma consulta. Durante o treinamento de RL, empregamos uma estratégia de execução baseada em currículo que degrada gradualmente a qualidade dos documentos gerados, eliciando progressivamente a capacidade de raciocínio do modelo ao expô-lo a cenários de recuperação cada vez mais desafiadores. Experimentos extensivos demonstram que o ZeroSearch incentiva efetivamente as capacidades de busca dos LLMs usando um LLM de 3B como módulo de recuperação. Notavelmente, um módulo de recuperação de 7B alcança desempenho comparável ao motor de busca real, enquanto um módulo de 14B até o supera. Além disso, ele generaliza bem tanto para modelos base quanto para modelos ajustados por instrução de vários tamanhos de parâmetros e é compatível com uma ampla gama de algoritmos de RL.

English

Effective information searching is essential for enhancing the reasoning and generation capabilities of large language models (LLMs). Recent research has explored using reinforcement learning (RL) to improve LLMs' search capabilities by interacting with live search engines in real-world environments. While these approaches show promising results, they face two major challenges: (1) Uncontrolled Document Quality: The quality of documents returned by search engines is often unpredictable, introducing noise and instability into the training process. (2) Prohibitively High API Costs: RL training requires frequent rollouts, potentially involving hundreds of thousands of search requests, which incur substantial API expenses and severely constrain scalability. To address these challenges, we introduce ZeroSearch, a reinforcement learning framework that incentivizes the search capabilities of LLMs without interacting with real search engines. Our approach begins with lightweight supervised fine-tuning to transform the LLM into a retrieval module capable of generating both relevant and noisy documents in response to a query. During RL training, we employ a curriculum-based rollout strategy that incrementally degrades the quality of generated documents, progressively eliciting the model's reasoning ability by exposing it to increasingly challenging retrieval scenarios. Extensive experiments demonstrate that ZeroSearch effectively incentivizes the search capabilities of LLMs using a 3B LLM as the retrieval module. Remarkably, a 7B retrieval module achieves comparable performance to the real search engine, while a 14B retrieval module even surpasses it. Furthermore, it generalizes well across both base and instruction-tuned models of various parameter sizes and is compatible with a wide range of RL algorithms.

ZeroSearch: Incentivar a Capacidade de Busca de LLMs sem Realizar Buscas

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

Resumo

Support