AceSearcher: Bootstrapping van Redeneren en Zoeken voor LLM's via Versterkt Zelfspel
AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play
September 29, 2025
Auteurs: Ran Xu, Yuchen Zhuang, Zihan Dong, Jonathan Wang, Yue Yu, Joyce C. Ho, Linjun Zhang, Haoyu Wang, Wenqi Shi, Carl Yang
cs.AI
Samenvatting
Search-augmented LLMs hebben vaak moeite met complexe redeneertaken vanwege
ineffectieve multi-hop retrieval en beperkte redeneervaardigheid. Wij stellen
AceSearcher voor, een coöperatief zelfspel-framework dat één groot
taalmodel (LLM) traint om af te wisselen tussen twee rollen: een decomposer die
complexe queries opsplitst en een solver die opgehaalde contexten integreert voor
antwoordgeneratie. AceSearcher combineert supervised fine-tuning op een diverse
mix van zoek-, redeneer- en decompositietaken met reinforcement fine-tuning die
is geoptimaliseerd voor de nauwkeurigheid van het eindantwoord, waardoor
tussenliggende annotaties overbodig worden. Uitgebreide experimenten op drie
redeneerintensieve taken over 10 datasets laten zien dat AceSearcher de
state-of-the-art baselines overtreft, met een gemiddelde exacte match-verbetering
van 7,6%. Opmerkelijk is dat AceSearcher-32B op documentniveau financiële
redeneertaken de prestaties van het DeepSeek-V3-model evenaart met minder dan 5%
van zijn parameters. Zelfs op kleinere schaal (1,5B en 8B) overtreft AceSearcher
vaak bestaande search-augmented LLMs met tot wel 9x meer parameters, wat zijn
uitzonderlijke efficiëntie en effectiviteit bij het aanpakken van complexe
redeneertaken benadrukt. Onze code zal worden gepubliceerd op
https://github.com/ritaranx/AceSearcher en
https://huggingface.co/AceSearcher.
English
Search-augmented LLMs often struggle with complex reasoning tasks due to
ineffective multi-hop retrieval and limited reasoning ability. We propose
AceSearcher, a cooperative self-play framework that trains a single large
language model (LLM) to alternate between two roles: a decomposer that breaks
down complex queries and a solver that integrates retrieved contexts for answer
generation. AceSearcher couples supervised fine-tuning on a diverse mixture of
search, reasoning, and decomposition tasks with reinforcement fine-tuning
optimized for final answer accuracy, eliminating the need for intermediate
annotations. Extensive experiments on three reasoning-intensive tasks across 10
datasets show that AceSearcher outperforms state-of-the-art baselines,
achieving an average exact match improvement of 7.6%. Remarkably, on
document-level finance reasoning tasks, AceSearcher-32B matches the performance
of the DeepSeek-V3 model using less than 5% of its parameters. Even at smaller
scales (1.5B and 8B), AceSearcher often surpasses existing search-augmented
LLMs with up to 9x more parameters, highlighting its exceptional efficiency and
effectiveness in tackling complex reasoning tasks. Our code will be published
at https://github.com/ritaranx/AceSearcher and
https://huggingface.co/AceSearcher.