ChatPaper.aiChatPaper

Satori: Aprendizado por Reforço com Cadeia de Pensamento de Ação Aprimora o Raciocínio LLM por Meio de Busca Autoregressiva

Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

February 4, 2025
Autores: Maohao Shen, Guangtao Zeng, Zhenting Qi, Zhang-Wei Hong, Zhenfang Chen, Wei Lu, Gregory Wornell, Subhro Das, David Cox, Chuang Gan
cs.AI

Resumo

Os grandes modelos de linguagem (LLMs) têm demonstrado notáveis capacidades de raciocínio em diversos domínios. Estudos recentes têm mostrado que aumentar a computação no momento do teste aprimora as capacidades de raciocínio dos LLMs. Isso normalmente envolve uma amostragem extensiva no momento da inferência guiada por um verificador externo de LLM, resultando em um sistema de dois jogadores. Apesar da orientação externa, a eficácia desse sistema demonstra o potencial de um único LLM para lidar com tarefas complexas. Assim, propomos um novo problema de pesquisa: Podemos internalizar as capacidades de busca para aprimorar fundamentalmente as habilidades de raciocínio de um único LLM? Este trabalho explora uma direção ortogonal focada em LLMs pós-treinamento para busca autoregressiva (ou seja, um processo de raciocínio estendido com autorreflexão e autoexploração de novas estratégias). Para alcançar isso, propomos o raciocínio em Cadeia-de-Ação-Pensamento (COAT) e um paradigma de treinamento em duas etapas: 1) uma etapa de ajuste de formato em pequena escala para internalizar o formato de raciocínio COAT e 2) uma etapa de autoaperfeiçoamento em grande escala aproveitando o aprendizado por reforço. Nossa abordagem resulta no Satori, um LLM de 7B treinado em modelos e dados de código aberto. Avaliações empíricas extensivas demonstram que o Satori alcança um desempenho de ponta em benchmarks de raciocínio matemático, enquanto exibe forte capacidade de generalização para tarefas fora do domínio. O código, dados e modelos serão totalmente disponibilizados em código aberto.
English
Large language models (LLMs) have demonstrated remarkable reasoning capabilities across diverse domains. Recent studies have shown that increasing test-time computation enhances LLMs' reasoning capabilities. This typically involves extensive sampling at inference time guided by an external LLM verifier, resulting in a two-player system. Despite external guidance, the effectiveness of this system demonstrates the potential of a single LLM to tackle complex tasks. Thus, we pose a new research problem: Can we internalize the searching capabilities to fundamentally enhance the reasoning abilities of a single LLM? This work explores an orthogonal direction focusing on post-training LLMs for autoregressive searching (i.e., an extended reasoning process with self-reflection and self-exploration of new strategies). To achieve this, we propose the Chain-of-Action-Thought (COAT) reasoning and a two-stage training paradigm: 1) a small-scale format tuning stage to internalize the COAT reasoning format and 2) a large-scale self-improvement stage leveraging reinforcement learning. Our approach results in Satori, a 7B LLM trained on open-source models and data. Extensive empirical evaluations demonstrate that Satori achieves state-of-the-art performance on mathematical reasoning benchmarks while exhibits strong generalization to out-of-domain tasks. Code, data, and models will be fully open-sourced.

Summary

AI-Generated Summary

PDF232February 5, 2025