Quebrando o Teto de Capacidade do Pós-Treinamento de LLMs pela Reintrodução de Estados de Markov

Resumo

O aprendizado por reforço (RL) tornou-se um paradigma padrão para o pós-treinamento e alinhamento de Grandes Modelos de Linguagem (LLMs), no entanto, evidências recentes sugerem que ele enfrenta um persistente "teto de capacidade": ao contrário dos sistemas clássicos de RL que descobrem novas estratégias, o RL para LLMs frequentemente atua como um mero refinador de padrões já latentes nos pesos pré-treinados. Neste trabalho, identificamos um gargalo estrutural fundamental: enquanto o RL clássico depende de estados de Markov compactos e informativos, as formulações atuais de pós-treinamento de LLMs estão atreladas a um histórico de ações em constante expansão. Revisitamos um princípio clássico, há muito central para o RL, mas ausente no pós-treinamento de LLMs: estados de Markov explícitos. Teoricamente, fornecemos garantias rigorosas demonstrando que a utilização de estados de Markov estimados pode reduzir significativamente a complexidade amostral. Empiricamente, mostramos que a introdução de estados de Markov quebra consistentemente os limites de desempenho do pós-treinamento padrão com RL em uma série de quebra-cabeças lógicos complexos. Nossos achados sugerem que ir além da modelagem de "histórico como estado" em favor de representações Markovianas estruturadas é essencial para desbloquear a descoberta de forma aberta e capacidades de raciocínio genuinamente novas na IA Generativa.

English

Reinforcement learning (RL) has become a standard paradigm for post-training and aligning Large Language Models (LLMs), yet recent evidence suggests it faces a persistent "capability ceiling": unlike classical RL systems that discover novel strategies, RL for LLMs often acts as a mere refiner of patterns already latent in pre-trained weights. In this work, we identify a fundamental structural bottleneck: while classical RL relies on compact, informative Markov states, current LLM post-training formulations are tethered to an ever-expanding history of actions. We revisit a classical principle long central to RL yet absent from LLM post-training: explicit Markov states. Theoretically, we provide rigorous guarantees demonstrating that leveraging estimated Markov states can significantly reduce sample complexity. Empirically, we show that introducing Markov states consistently breaks the performance boundaries of standard RL post-training across a suite of complex logic puzzles. Our findings suggest that moving beyond "history-as-state" modeling in favor of structured Markovian representations is essential for unlocking open-ended discovery and genuinely new reasoning capabilities in Generative AI.

Quebrando o Teto de Capacidade do Pós-Treinamento de LLMs pela Reintrodução de Estados de Markov

Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States

Resumo

Support