Satori: Verstärkendes Lernen mit Ketten-von-Aktionen-Denken verbessert LLM-Argumentation durch autoregressiven Suchprozess.
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search
February 4, 2025
Autoren: Maohao Shen, Guangtao Zeng, Zhenting Qi, Zhang-Wei Hong, Zhenfang Chen, Wei Lu, Gregory Wornell, Subhro Das, David Cox, Chuang Gan
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten zur Argumentation in verschiedenen Bereichen gezeigt. Aktuelle Studien haben gezeigt, dass eine Erhöhung der Rechenleistung zur Testzeit die Argumentationsfähigkeiten von LLMs verbessert. Dies beinhaltet in der Regel umfangreiches Sampling zur Inferenzzeit, das von einem externen LLM-Verifizierer geleitet wird, was zu einem Zwei-Spieler-System führt. Trotz externer Anleitung zeigt die Effektivität dieses Systems das Potenzial eines einzelnen LLMs, komplexe Aufgaben zu bewältigen. Daher stellen wir ein neues Forschungsproblem auf: Können wir die Suchfähigkeiten internalisieren, um die Argumentationsfähigkeiten eines einzelnen LLMs grundlegend zu verbessern? Diese Arbeit untersucht eine orthogonalen Ansatz, der sich auf post-Training LLMs für autoregressives Suchen konzentriert (d. h. ein erweitertes Argumentationsverfahren mit Selbstreflexion und Selbstexploration neuer Strategien). Um dies zu erreichen, schlagen wir das Chain-of-Action-Thought (COAT) Argumentieren und ein zweistufiges Trainingsparadigma vor: 1) eine Formatanpassungsphase im kleinen Maßstab, um das COAT-Argumentationsformat zu internalisieren und 2) eine groß angelegte Selbstverbesserungsphase unter Verwendung von reinforcement learning. Unser Ansatz führt zu Satori, einem 7B LLM, der auf Open-Source-Modellen und -Daten trainiert wurde. Umfangreiche empirische Evaluierungen zeigen, dass Satori Spitzenleistungen bei mathematischen Argumentationsbenchmarks erzielt und eine starke Verallgemeinerung auf Aufgaben außerhalb des Domänen zeigt. Code, Daten und Modelle werden vollständig Open Source zur Verfügung gestellt.
English
Large language models (LLMs) have demonstrated remarkable reasoning
capabilities across diverse domains. Recent studies have shown that increasing
test-time computation enhances LLMs' reasoning capabilities. This typically
involves extensive sampling at inference time guided by an external LLM
verifier, resulting in a two-player system. Despite external guidance, the
effectiveness of this system demonstrates the potential of a single LLM to
tackle complex tasks. Thus, we pose a new research problem: Can we internalize
the searching capabilities to fundamentally enhance the reasoning abilities of
a single LLM? This work explores an orthogonal direction focusing on
post-training LLMs for autoregressive searching (i.e., an extended reasoning
process with self-reflection and self-exploration of new strategies). To
achieve this, we propose the Chain-of-Action-Thought (COAT) reasoning and a
two-stage training paradigm: 1) a small-scale format tuning stage to
internalize the COAT reasoning format and 2) a large-scale self-improvement
stage leveraging reinforcement learning. Our approach results in Satori, a 7B
LLM trained on open-source models and data. Extensive empirical evaluations
demonstrate that Satori achieves state-of-the-art performance on mathematical
reasoning benchmarks while exhibits strong generalization to out-of-domain
tasks. Code, data, and models will be fully open-sourced.Summary
AI-Generated Summary