사후 학습된 대규모 언어 모델의 성능 한계 극복: 마르코프 상태 재도입을 통한 접근
Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States
March 20, 2026
저자: Yurun Yuan, Tengyang Xie
cs.AI
초록
강화학습(RL)은 대규모 언어 모델(LLM)의 사후 훈련 및 정렬을 위한 표준 패러다임으로 자리 잡았으나, 최근 연구에 따르면 지속적인 "능력 한계"에 직면해 있습니다: 새로운 전략을 발견하는 고전적 강화학습 시스템과 달리, LLM을 위한 강화학습은 사전 훈련된 가중치에 이미 잠재되어 있는 패턴을 단순히 세부 조정하는 역할에 그치는 경우가 많습니다. 본 연구에서는 근본적인 구조적 병목 현상을 규명합니다: 고전적 강화학습이 간결하고 유의미한 마르코프 상태에 의존하는 반면, 현재의 LLM 사후 훈련 방식은 계속해서 확장되는 행동 이력에 얽매여 있습니다.
우리는 오랫동안 강화학습의 핵심 원칙이었으나 LLM 사후 훈련에서는 적용되지 않았던 한 가지, 즉 명시적 마르코프 상태를 재조명합니다. 이론적으로는, 추정된 마르코프 상태를 활용함으로써 표본 복잡도를 크게 줄일 수 있음을 엄밀하게 증명합니다. 실증적으로는, 복잡한 논리 퍼즐 모음에 걸쳐 마르코프 상태를 도입하면 표준 강화학습 기반 사후 훈련의 성능 한계를 지속적으로 극복할 수 있음을 보여줍니다. 우리의 연구 결과는 "이력을 상태로 사용"하는 모델링을 넘어 구조화된 마르코프적 표현을 채택하는 것이 생성형 AI에서 개방형 발견과 진정한 새로운 추론 능력을 구현하는 데 필수적임을 시사합니다.
English
Reinforcement learning (RL) has become a standard paradigm for post-training and aligning Large Language Models (LLMs), yet recent evidence suggests it faces a persistent "capability ceiling": unlike classical RL systems that discover novel strategies, RL for LLMs often acts as a mere refiner of patterns already latent in pre-trained weights. In this work, we identify a fundamental structural bottleneck: while classical RL relies on compact, informative Markov states, current LLM post-training formulations are tethered to an ever-expanding history of actions.
We revisit a classical principle long central to RL yet absent from LLM post-training: explicit Markov states. Theoretically, we provide rigorous guarantees demonstrating that leveraging estimated Markov states can significantly reduce sample complexity. Empirically, we show that introducing Markov states consistently breaks the performance boundaries of standard RL post-training across a suite of complex logic puzzles. Our findings suggest that moving beyond "history-as-state" modeling in favor of structured Markovian representations is essential for unlocking open-ended discovery and genuinely new reasoning capabilities in Generative AI.