AceSearcher: Aprimorando Raciocínio e Busca para LLMs por meio de Auto-Jogo Reforçado
AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play
September 29, 2025
Autores: Ran Xu, Yuchen Zhuang, Zihan Dong, Jonathan Wang, Yue Yu, Joyce C. Ho, Linjun Zhang, Haoyu Wang, Wenqi Shi, Carl Yang
cs.AI
Resumo
Os LLMs (Large Language Models) aprimorados por busca frequentemente enfrentam dificuldades em tarefas de raciocínio complexo devido à recuperação ineficaz de múltiplos saltos e à capacidade limitada de raciocínio. Propomos o AceSearcher, uma estrutura de autojogo cooperativo que treina um único LLM para alternar entre dois papéis: um decompositor que divide consultas complexas e um resolvedor que integra contextos recuperados para a geração de respostas. O AceSearcher combina ajuste fino supervisionado em uma mistura diversificada de tarefas de busca, raciocínio e decomposição com ajuste fino por reforço otimizado para a precisão da resposta final, eliminando a necessidade de anotações intermediárias. Experimentos extensivos em três tarefas intensivas em raciocínio, abrangendo 10 conjuntos de dados, mostram que o AceSearcher supera os modelos de última geração, alcançando uma melhoria média de 7,6% na correspondência exata. Notavelmente, em tarefas de raciocínio financeiro em nível de documento, o AceSearcher-32B iguala o desempenho do modelo DeepSeek-V3 usando menos de 5% de seus parâmetros. Mesmo em escalas menores (1,5B e 8B), o AceSearcher frequentemente supera os LLMs aprimorados por busca existentes com até 9 vezes mais parâmetros, destacando sua eficiência e eficácia excepcionais no enfrentamento de tarefas de raciocínio complexo. Nosso código será publicado em https://github.com/ritaranx/AceSearcher e https://huggingface.co/AceSearcher.
English
Search-augmented LLMs often struggle with complex reasoning tasks due to
ineffective multi-hop retrieval and limited reasoning ability. We propose
AceSearcher, a cooperative self-play framework that trains a single large
language model (LLM) to alternate between two roles: a decomposer that breaks
down complex queries and a solver that integrates retrieved contexts for answer
generation. AceSearcher couples supervised fine-tuning on a diverse mixture of
search, reasoning, and decomposition tasks with reinforcement fine-tuning
optimized for final answer accuracy, eliminating the need for intermediate
annotations. Extensive experiments on three reasoning-intensive tasks across 10
datasets show that AceSearcher outperforms state-of-the-art baselines,
achieving an average exact match improvement of 7.6%. Remarkably, on
document-level finance reasoning tasks, AceSearcher-32B matches the performance
of the DeepSeek-V3 model using less than 5% of its parameters. Even at smaller
scales (1.5B and 8B), AceSearcher often surpasses existing search-augmented
LLMs with up to 9x more parameters, highlighting its exceptional efficiency and
effectiveness in tackling complex reasoning tasks. Our code will be published
at https://github.com/ritaranx/AceSearcher and
https://huggingface.co/AceSearcher.