RL이 LLM에 장기적 추론 능력을 가르칠 수 있을까? 표현력이 핵심이다
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
May 7, 2026
저자: Tianle Wang, Zhaoyang Wang, Guangchen Lan, Xinpeng Wei, Sipeng Zhang, Guanwen Qiu, Abulhair Saparov
cs.AI
초록
강화 학습(RL)은 대규모 언어 모델(LLM)의 추론 능력 향상에 적용되어 왔지만, 과제 난이도에 따른 훈련 규모 확장에 대한 체계적인 연구는 통제 가능하고 확장성 있는 환경의 부재로 어려움을 겪어왔다. 본 연구에서는 두 가지 난이도 축(필요한 증명 계획의 깊이, 즉 계획 지평과 기반 논리의 표현력)을 독립적으로 제어할 수 있는 합성 논리 추론 프레임워크인 ScaleLogic을 소개한다. 제안된 프레임워크는 단순한 함축 전용 논리("if-then")부터 접속사("and"), 선언사("or"), 부정("not"), 전칭 한정("for all")을 포함한 더 표현력丰富的한 1차 논리 추론에 이르기까지 광범위한 논리 체계를 지원한다. 이 프레임워크를 이용하여, RL 훈련 시 소요되는 계산량 T가 추론 깊이 D에 대해 멱법칙(T ∝ D^γ, R² > 0.99)을 따르며, 이 스케일링 지수 γ가 논리적 표현력이 증가함에 따라 1.04에서 2.60으로 단조 증가함을 보인다. 하류 수학 및 일반 추론 벤치마크에서, 표현력이 낮은 설정에 비해 표현력이 높은 훈련 설정에서 더 큰 성능 향상(최대 +10.66점)과 더 높은 계산 효율의 전이를 달성하여, 모델의 성능이 '얼마나 많이' 훈련되었는지 뿐만 아니라 '무엇으로' 훈련되었는지가 하류 전이를 결정함을 입증한다. 또한 이 멱법칙 관계가 여러 RL 방법에서도 유지되며, 커리큘럼 기반 훈련이 스케일링 효율을 크게 향상시킴을 보여준다.
English
Reinforcement learning (RL) has been applied to improve large language model (LLM) reasoning, yet the systematic study of how training scales with task difficulty has been hampered by the lack of controlled, scalable environments. We introduce ScaleLogic, a synthetic logical reasoning framework that offers independent control over two axes of difficulty: the depth of the required proof planning (i.e., the horizon) and the expressiveness of the underlying logic. Our proposed framework supports a wide range of logics: from simple implication-only logic ("if-then") towards more expressive first-order reasoning with conjunction ("and"), disjunction ("or"), negation ("not"), and universal quantification ("for all"). Using this framework, we show that the RL training compute T follows a power law with respect to reasoning depth D (T propto D^γ, R^{2} > 0.99), and that the scaling exponent γ increases monotonically with logical expressiveness, from 1.04 to 2.60. On downstream mathematics and general reasoning benchmarks, more expressive training settings yield both larger performance gains (up to +10.66 points) and more compute-efficient transfer compared to less expressive settings, demonstrating that what a model is trained on, not just how much it is trained, shapes downstream transfer. We further show that the power-law relationship holds across multiple RL methods, and curriculum-based training substantially improves scaling efficiency.