AceSearcher: Potenziamento del Ragionamento e della Ricerca per LLM tramite Autoapprendimento Rinforzato

Abstract

I LLM potenziati con la ricerca spesso incontrano difficoltà nei compiti di ragionamento complesso a causa di un recupero multi-hop inefficace e di una capacità di ragionamento limitata. Proponiamo AceSearcher, un framework di gioco cooperativo che addestra un singolo modello linguistico di grandi dimensioni (LLM) ad alternarsi tra due ruoli: un decompositore che scompone query complesse e un risolutore che integra contesti recuperati per la generazione di risposte. AceSearcher combina un fine-tuning supervisionato su un mix diversificato di compiti di ricerca, ragionamento e decomposizione con un fine-tuning basato sul rinforzo ottimizzato per l'accuratezza delle risposte finali, eliminando la necessità di annotazioni intermedie. Esperimenti estesi su tre compiti intensivi di ragionamento su 10 dataset dimostrano che AceSearcher supera i baseline all'avanguardia, ottenendo un miglioramento medio dell'exact match del 7,6%. In modo notevole, nei compiti di ragionamento finanziario a livello di documento, AceSearcher-32B eguaglia le prestazioni del modello DeepSeek-V3 utilizzando meno del 5% dei suoi parametri. Anche su scale più ridotte (1,5B e 8B), AceSearcher spesso supera i LLM potenziati con la ricerca esistenti con fino a 9 volte più parametri, evidenziando la sua eccezionale efficienza ed efficacia nell'affrontare compiti di ragionamento complessi. Il nostro codice sarà pubblicato su https://github.com/ritaranx/AceSearcher e https://huggingface.co/AceSearcher.

English

Search-augmented LLMs often struggle with complex reasoning tasks due to ineffective multi-hop retrieval and limited reasoning ability. We propose AceSearcher, a cooperative self-play framework that trains a single large language model (LLM) to alternate between two roles: a decomposer that breaks down complex queries and a solver that integrates retrieved contexts for answer generation. AceSearcher couples supervised fine-tuning on a diverse mixture of search, reasoning, and decomposition tasks with reinforcement fine-tuning optimized for final answer accuracy, eliminating the need for intermediate annotations. Extensive experiments on three reasoning-intensive tasks across 10 datasets show that AceSearcher outperforms state-of-the-art baselines, achieving an average exact match improvement of 7.6%. Remarkably, on document-level finance reasoning tasks, AceSearcher-32B matches the performance of the DeepSeek-V3 model using less than 5% of its parameters. Even at smaller scales (1.5B and 8B), AceSearcher often surpasses existing search-augmented LLMs with up to 9x more parameters, highlighting its exceptional efficiency and effectiveness in tackling complex reasoning tasks. Our code will be published at https://github.com/ritaranx/AceSearcher and https://huggingface.co/AceSearcher.

AceSearcher: Potenziamento del Ragionamento e della Ricerca per LLM tramite Autoapprendimento Rinforzato

AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play

Abstract

Support