ChatPaper.aiChatPaper

Satori: Aprendizaje por Refuerzo con Cadena de Pensamiento de Acción Mejora el Razonamiento LLM a través de Búsqueda Autoregresiva

Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

February 4, 2025
Autores: Maohao Shen, Guangtao Zeng, Zhenting Qi, Zhang-Wei Hong, Zhenfang Chen, Wei Lu, Gregory Wornell, Subhro Das, David Cox, Chuang Gan
cs.AI

Resumen

Los modelos de lenguaje grandes (LLMs) han demostrado notables capacidades de razonamiento en diversos dominios. Estudios recientes han mostrado que aumentar la computación en tiempo de prueba mejora las capacidades de razonamiento de los LLMs. Esto generalmente implica un muestreo extenso en el momento de la inferencia guiado por un verificador externo de LLM, lo que resulta en un sistema de dos jugadores. A pesar de la orientación externa, la efectividad de este sistema demuestra el potencial de un solo LLM para abordar tareas complejas. Por lo tanto, planteamos un nuevo problema de investigación: ¿Podemos internalizar las capacidades de búsqueda para mejorar fundamentalmente las habilidades de razonamiento de un solo LLM? Este trabajo explora una dirección ortogonal centrada en LLMs de post-entrenamiento para la búsqueda autorregresiva (es decir, un proceso de razonamiento extendido con autorreflexión y autoexploración de nuevas estrategias). Para lograr esto, proponemos el razonamiento de Cadena-de-Acción-Pensamiento (COAT) y un paradigma de entrenamiento de dos etapas: 1) una etapa de ajuste de formato a pequeña escala para internalizar el formato de razonamiento COAT y 2) una etapa de auto-mejora a gran escala aprovechando el aprendizaje por refuerzo. Nuestro enfoque resulta en Satori, un LLM de 7B entrenado en modelos y datos de código abierto. Evaluaciones empíricas extensas demuestran que Satori logra un rendimiento de vanguardia en pruebas de razonamiento matemático, al tiempo que muestra una sólida generalización a tareas fuera de dominio. El código, los datos y los modelos se compartirán completamente en código abierto.
English
Large language models (LLMs) have demonstrated remarkable reasoning capabilities across diverse domains. Recent studies have shown that increasing test-time computation enhances LLMs' reasoning capabilities. This typically involves extensive sampling at inference time guided by an external LLM verifier, resulting in a two-player system. Despite external guidance, the effectiveness of this system demonstrates the potential of a single LLM to tackle complex tasks. Thus, we pose a new research problem: Can we internalize the searching capabilities to fundamentally enhance the reasoning abilities of a single LLM? This work explores an orthogonal direction focusing on post-training LLMs for autoregressive searching (i.e., an extended reasoning process with self-reflection and self-exploration of new strategies). To achieve this, we propose the Chain-of-Action-Thought (COAT) reasoning and a two-stage training paradigm: 1) a small-scale format tuning stage to internalize the COAT reasoning format and 2) a large-scale self-improvement stage leveraging reinforcement learning. Our approach results in Satori, a 7B LLM trained on open-source models and data. Extensive empirical evaluations demonstrate that Satori achieves state-of-the-art performance on mathematical reasoning benchmarks while exhibits strong generalization to out-of-domain tasks. Code, data, and models will be fully open-sourced.

Summary

AI-Generated Summary

PDF232February 5, 2025