Rompiendo el Techo de Capacidad del Post-entrenamiento de LLM mediante la Reintroducción de Estados de Markov

Resumen

El aprendizaje por refuerzo (RL) se ha convertido en un paradigma estándar para el post-entrenamiento y la alineación de Modelos de Lenguaje a Gran Escala (LLMs); sin embargo, evidencia reciente sugiere que enfrenta un persistente "techo de capacidad": a diferencia de los sistemas clásicos de RL que descubren estrategias novedosas, el RL para LLMs a menudo actúa como un mero refinador de patrones ya latentes en los pesos pre-entrenados. En este trabajo, identificamos un cuello de botella estructural fundamental: mientras que el RL clásico se basa en estados de Markov compactos e informativos, las formulaciones actuales de post-entrenamiento de LLMs están atadas a una historia de acciones en constante expansión. Revisitamos un principio clásico, durante mucho tiempo central para el RL pero ausente en el post-entrenamiento de LLMs: los estados de Markov explícitos. Teóricamente, proporcionamos garantías rigurosas que demuestran que aprovechar estados de Markov estimados puede reducir significativamente la complejidad muestral. Empíricamente, mostramos que la introducción de estados de Markov supera consistentemente los límites de rendimiento del post-entrenamiento con RL estándar en un conjunto de puzzles lógicos complejos. Nuestros hallazgos sugieren que avanzar más allá del modelado de "la historia como estado" en favor de representaciones markovianas estructuradas es esencial para desbloquear el descubrimiento de código abierto y capacidades de razonamiento genuinamente nuevas en la IA Generativa.

English

Reinforcement learning (RL) has become a standard paradigm for post-training and aligning Large Language Models (LLMs), yet recent evidence suggests it faces a persistent "capability ceiling": unlike classical RL systems that discover novel strategies, RL for LLMs often acts as a mere refiner of patterns already latent in pre-trained weights. In this work, we identify a fundamental structural bottleneck: while classical RL relies on compact, informative Markov states, current LLM post-training formulations are tethered to an ever-expanding history of actions. We revisit a classical principle long central to RL yet absent from LLM post-training: explicit Markov states. Theoretically, we provide rigorous guarantees demonstrating that leveraging estimated Markov states can significantly reduce sample complexity. Empirically, we show that introducing Markov states consistently breaks the performance boundaries of standard RL post-training across a suite of complex logic puzzles. Our findings suggest that moving beyond "history-as-state" modeling in favor of structured Markovian representations is essential for unlocking open-ended discovery and genuinely new reasoning capabilities in Generative AI.

Rompiendo el Techo de Capacidad del Post-entrenamiento de LLM mediante la Reintroducción de Estados de Markov

Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States

Resumen

Support