AceSearcher: Potenziamento del Ragionamento e della Ricerca per LLM tramite Autoapprendimento Rinforzato
AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play
September 29, 2025
Autori: Ran Xu, Yuchen Zhuang, Zihan Dong, Jonathan Wang, Yue Yu, Joyce C. Ho, Linjun Zhang, Haoyu Wang, Wenqi Shi, Carl Yang
cs.AI
Abstract
I LLM potenziati con la ricerca spesso incontrano difficoltà nei compiti di ragionamento complesso a causa di un recupero multi-hop inefficace e di una capacità di ragionamento limitata. Proponiamo AceSearcher, un framework di gioco cooperativo che addestra un singolo modello linguistico di grandi dimensioni (LLM) ad alternarsi tra due ruoli: un decompositore che scompone query complesse e un risolutore che integra contesti recuperati per la generazione di risposte. AceSearcher combina un fine-tuning supervisionato su un mix diversificato di compiti di ricerca, ragionamento e decomposizione con un fine-tuning basato sul rinforzo ottimizzato per l'accuratezza delle risposte finali, eliminando la necessità di annotazioni intermedie. Esperimenti estesi su tre compiti intensivi di ragionamento su 10 dataset dimostrano che AceSearcher supera i baseline all'avanguardia, ottenendo un miglioramento medio dell'exact match del 7,6%. In modo notevole, nei compiti di ragionamento finanziario a livello di documento, AceSearcher-32B eguaglia le prestazioni del modello DeepSeek-V3 utilizzando meno del 5% dei suoi parametri. Anche su scale più ridotte (1,5B e 8B), AceSearcher spesso supera i LLM potenziati con la ricerca esistenti con fino a 9 volte più parametri, evidenziando la sua eccezionale efficienza ed efficacia nell'affrontare compiti di ragionamento complessi. Il nostro codice sarà pubblicato su https://github.com/ritaranx/AceSearcher e https://huggingface.co/AceSearcher.
English
Search-augmented LLMs often struggle with complex reasoning tasks due to
ineffective multi-hop retrieval and limited reasoning ability. We propose
AceSearcher, a cooperative self-play framework that trains a single large
language model (LLM) to alternate between two roles: a decomposer that breaks
down complex queries and a solver that integrates retrieved contexts for answer
generation. AceSearcher couples supervised fine-tuning on a diverse mixture of
search, reasoning, and decomposition tasks with reinforcement fine-tuning
optimized for final answer accuracy, eliminating the need for intermediate
annotations. Extensive experiments on three reasoning-intensive tasks across 10
datasets show that AceSearcher outperforms state-of-the-art baselines,
achieving an average exact match improvement of 7.6%. Remarkably, on
document-level finance reasoning tasks, AceSearcher-32B matches the performance
of the DeepSeek-V3 model using less than 5% of its parameters. Even at smaller
scales (1.5B and 8B), AceSearcher often surpasses existing search-augmented
LLMs with up to 9x more parameters, highlighting its exceptional efficiency and
effectiveness in tackling complex reasoning tasks. Our code will be published
at https://github.com/ritaranx/AceSearcher and
https://huggingface.co/AceSearcher.