Satori: Apprendimento per Rinforzo con Catena di Azioni-Pensiero Migliora il Ragionamento LLM tramite Ricerca Autoregressiva
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search
February 4, 2025
Autori: Maohao Shen, Guangtao Zeng, Zhenting Qi, Zhang-Wei Hong, Zhenfang Chen, Wei Lu, Gregory Wornell, Subhro Das, David Cox, Chuang Gan
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato notevoli capacità di ragionamento in diversi ambiti. Studi recenti hanno evidenziato che aumentare il calcolo al momento del test migliora le capacità di ragionamento dei LLM. Questo di solito comporta un campionamento esteso al momento dell'inferenza guidato da un verificatore LLM esterno, creando un sistema a due giocatori. Nonostante la guida esterna, l'efficacia di questo sistema dimostra il potenziale di un singolo LLM nel affrontare compiti complessi. Pertanto, poniamo un nuovo problema di ricerca: possiamo internalizzare le capacità di ricerca per potenziare fondamentalmente le capacità di ragionamento di un singolo LLM? Questo lavoro esplora una direzione ortogonale concentrandosi sui LLM post-addestramento per la ricerca autoregressiva (cioè, un processo di ragionamento esteso con auto-riflessione e auto-esplorazione di nuove strategie). Per raggiungere questo obiettivo, proponiamo il ragionamento a Catena di Azione-Pensiero (COAT) e un paradigma di addestramento a due fasi: 1) una fase di sintonizzazione del formato su piccola scala per internalizzare il formato di ragionamento COAT e 2) una fase di auto-miglioramento su larga scala sfruttando il reinforcement learning. Il nostro approccio porta a Satori, un LLM da 7B addestrato su modelli e dati open-source. Estese valutazioni empiriche dimostrano che Satori raggiunge prestazioni all'avanguardia su benchmark di ragionamento matematico, mostrando una forte capacità di generalizzazione a compiti al di fuori del dominio. Codice, dati e modelli saranno completamente open-source.
English
Large language models (LLMs) have demonstrated remarkable reasoning
capabilities across diverse domains. Recent studies have shown that increasing
test-time computation enhances LLMs' reasoning capabilities. This typically
involves extensive sampling at inference time guided by an external LLM
verifier, resulting in a two-player system. Despite external guidance, the
effectiveness of this system demonstrates the potential of a single LLM to
tackle complex tasks. Thus, we pose a new research problem: Can we internalize
the searching capabilities to fundamentally enhance the reasoning abilities of
a single LLM? This work explores an orthogonal direction focusing on
post-training LLMs for autoregressive searching (i.e., an extended reasoning
process with self-reflection and self-exploration of new strategies). To
achieve this, we propose the Chain-of-Action-Thought (COAT) reasoning and a
two-stage training paradigm: 1) a small-scale format tuning stage to
internalize the COAT reasoning format and 2) a large-scale self-improvement
stage leveraging reinforcement learning. Our approach results in Satori, a 7B
LLM trained on open-source models and data. Extensive empirical evaluations
demonstrate that Satori achieves state-of-the-art performance on mathematical
reasoning benchmarks while exhibits strong generalization to out-of-domain
tasks. Code, data, and models will be fully open-sourced.Summary
AI-Generated Summary