ChatPaper.aiChatPaper

AceSearcher: Aprimorando Raciocínio e Busca para LLMs por meio de Auto-Jogo Reforçado

AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play

September 29, 2025
Autores: Ran Xu, Yuchen Zhuang, Zihan Dong, Jonathan Wang, Yue Yu, Joyce C. Ho, Linjun Zhang, Haoyu Wang, Wenqi Shi, Carl Yang
cs.AI

Resumo

Os LLMs (Large Language Models) aprimorados por busca frequentemente enfrentam dificuldades em tarefas de raciocínio complexo devido à recuperação ineficaz de múltiplos saltos e à capacidade limitada de raciocínio. Propomos o AceSearcher, uma estrutura de autojogo cooperativo que treina um único LLM para alternar entre dois papéis: um decompositor que divide consultas complexas e um resolvedor que integra contextos recuperados para a geração de respostas. O AceSearcher combina ajuste fino supervisionado em uma mistura diversificada de tarefas de busca, raciocínio e decomposição com ajuste fino por reforço otimizado para a precisão da resposta final, eliminando a necessidade de anotações intermediárias. Experimentos extensivos em três tarefas intensivas em raciocínio, abrangendo 10 conjuntos de dados, mostram que o AceSearcher supera os modelos de última geração, alcançando uma melhoria média de 7,6% na correspondência exata. Notavelmente, em tarefas de raciocínio financeiro em nível de documento, o AceSearcher-32B iguala o desempenho do modelo DeepSeek-V3 usando menos de 5% de seus parâmetros. Mesmo em escalas menores (1,5B e 8B), o AceSearcher frequentemente supera os LLMs aprimorados por busca existentes com até 9 vezes mais parâmetros, destacando sua eficiência e eficácia excepcionais no enfrentamento de tarefas de raciocínio complexo. Nosso código será publicado em https://github.com/ritaranx/AceSearcher e https://huggingface.co/AceSearcher.
English
Search-augmented LLMs often struggle with complex reasoning tasks due to ineffective multi-hop retrieval and limited reasoning ability. We propose AceSearcher, a cooperative self-play framework that trains a single large language model (LLM) to alternate between two roles: a decomposer that breaks down complex queries and a solver that integrates retrieved contexts for answer generation. AceSearcher couples supervised fine-tuning on a diverse mixture of search, reasoning, and decomposition tasks with reinforcement fine-tuning optimized for final answer accuracy, eliminating the need for intermediate annotations. Extensive experiments on three reasoning-intensive tasks across 10 datasets show that AceSearcher outperforms state-of-the-art baselines, achieving an average exact match improvement of 7.6%. Remarkably, on document-level finance reasoning tasks, AceSearcher-32B matches the performance of the DeepSeek-V3 model using less than 5% of its parameters. Even at smaller scales (1.5B and 8B), AceSearcher often surpasses existing search-augmented LLMs with up to 9x more parameters, highlighting its exceptional efficiency and effectiveness in tackling complex reasoning tasks. Our code will be published at https://github.com/ritaranx/AceSearcher and https://huggingface.co/AceSearcher.
PDF62September 30, 2025