AceSearcher: Aprimorando Raciocínio e Busca para LLMs por meio de Auto-Jogo Reforçado

Resumo

Os LLMs (Large Language Models) aprimorados por busca frequentemente enfrentam dificuldades em tarefas de raciocínio complexo devido à recuperação ineficaz de múltiplos saltos e à capacidade limitada de raciocínio. Propomos o AceSearcher, uma estrutura de autojogo cooperativo que treina um único LLM para alternar entre dois papéis: um decompositor que divide consultas complexas e um resolvedor que integra contextos recuperados para a geração de respostas. O AceSearcher combina ajuste fino supervisionado em uma mistura diversificada de tarefas de busca, raciocínio e decomposição com ajuste fino por reforço otimizado para a precisão da resposta final, eliminando a necessidade de anotações intermediárias. Experimentos extensivos em três tarefas intensivas em raciocínio, abrangendo 10 conjuntos de dados, mostram que o AceSearcher supera os modelos de última geração, alcançando uma melhoria média de 7,6% na correspondência exata. Notavelmente, em tarefas de raciocínio financeiro em nível de documento, o AceSearcher-32B iguala o desempenho do modelo DeepSeek-V3 usando menos de 5% de seus parâmetros. Mesmo em escalas menores (1,5B e 8B), o AceSearcher frequentemente supera os LLMs aprimorados por busca existentes com até 9 vezes mais parâmetros, destacando sua eficiência e eficácia excepcionais no enfrentamento de tarefas de raciocínio complexo. Nosso código será publicado em https://github.com/ritaranx/AceSearcher e https://huggingface.co/AceSearcher.

English

Search-augmented LLMs often struggle with complex reasoning tasks due to ineffective multi-hop retrieval and limited reasoning ability. We propose AceSearcher, a cooperative self-play framework that trains a single large language model (LLM) to alternate between two roles: a decomposer that breaks down complex queries and a solver that integrates retrieved contexts for answer generation. AceSearcher couples supervised fine-tuning on a diverse mixture of search, reasoning, and decomposition tasks with reinforcement fine-tuning optimized for final answer accuracy, eliminating the need for intermediate annotations. Extensive experiments on three reasoning-intensive tasks across 10 datasets show that AceSearcher outperforms state-of-the-art baselines, achieving an average exact match improvement of 7.6%. Remarkably, on document-level finance reasoning tasks, AceSearcher-32B matches the performance of the DeepSeek-V3 model using less than 5% of its parameters. Even at smaller scales (1.5B and 8B), AceSearcher often surpasses existing search-augmented LLMs with up to 9x more parameters, highlighting its exceptional efficiency and effectiveness in tackling complex reasoning tasks. Our code will be published at https://github.com/ritaranx/AceSearcher and https://huggingface.co/AceSearcher.

AceSearcher: Aprimorando Raciocínio e Busca para LLMs por meio de Auto-Jogo Reforçado

AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play

Resumo

Support