Satori: Versterkend Leren met Keten-van-Actie-Denken Verbetert LLM Redenering via Autoregressieve Zoektocht
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search
February 4, 2025
Auteurs: Maohao Shen, Guangtao Zeng, Zhenting Qi, Zhang-Wei Hong, Zhenfang Chen, Wei Lu, Gregory Wornell, Subhro Das, David Cox, Chuang Gan
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben opmerkelijke redeneervermogens aangetoond over diverse domeinen. Recente studies hebben aangetoond dat het verhogen van de rekentijd tijdens testen de redeneervermogens van LLM's verbetert. Dit houdt meestal uitgebreide steekproeven in tijdens de inferentie, geleid door een externe LLM-verificateur, wat resulteert in een tweespelersysteem. Ondanks externe begeleiding toont de effectiviteit van dit systeem het potentieel van een enkel LLM om complexe taken aan te pakken. Daarom stellen we een nieuw onderzoeksprobleem voor: Kunnen we de zoekmogelijkheden internaliseren om fundamenteel de redeneervaardigheden van een enkel LLM te verbeteren? Dit werk verkent een orthogonale richting die zich richt op post-training LLM's voor autoregressief zoeken (dat wil zeggen, een uitgebreid redeneerproces met zelfreflectie en zelfverkenning van nieuwe strategieën). Om dit te bereiken, stellen we de Chain-of-Action-Thought (COAT) redenering voor en een tweefasig trainingsparadigma: 1) een kleinschalige opmaakafstemmingsfase om de COAT redeneeropmaak te internaliseren en 2) een grootschalige zelfverbeteringsfase die gebruikmaakt van reinforcement learning. Onze benadering resulteert in Satori, een 7B LLM getraind op open-source modellen en data. Uitgebreide empirische evaluaties tonen aan dat Satori state-of-the-art prestaties behaalt op wiskundige redeneerbenchmarks en sterke generalisatie vertoont naar taken buiten het domein. Code, data en modellen zullen volledig open-source worden gemaakt.
English
Large language models (LLMs) have demonstrated remarkable reasoning
capabilities across diverse domains. Recent studies have shown that increasing
test-time computation enhances LLMs' reasoning capabilities. This typically
involves extensive sampling at inference time guided by an external LLM
verifier, resulting in a two-player system. Despite external guidance, the
effectiveness of this system demonstrates the potential of a single LLM to
tackle complex tasks. Thus, we pose a new research problem: Can we internalize
the searching capabilities to fundamentally enhance the reasoning abilities of
a single LLM? This work explores an orthogonal direction focusing on
post-training LLMs for autoregressive searching (i.e., an extended reasoning
process with self-reflection and self-exploration of new strategies). To
achieve this, we propose the Chain-of-Action-Thought (COAT) reasoning and a
two-stage training paradigm: 1) a small-scale format tuning stage to
internalize the COAT reasoning format and 2) a large-scale self-improvement
stage leveraging reinforcement learning. Our approach results in Satori, a 7B
LLM trained on open-source models and data. Extensive empirical evaluations
demonstrate that Satori achieves state-of-the-art performance on mathematical
reasoning benchmarks while exhibits strong generalization to out-of-domain
tasks. Code, data, and models will be fully open-sourced.Summary
AI-Generated Summary