학습 가능성의 경계에서 추론하기: 모델이 스스로 학습하도록 가르치기
Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability
January 26, 2026
저자: Shobhita Sundaram, John Quan, Ariel Kwiatkowski, Kartik Ahuja, Yann Ollivier, Julia Kempe
cs.AI
초록
모델이 자기 자신의 학습 정체기를 극복하도록 학습할 수 있을까? 낮은 초기 성공률, 즉 적은 훈련 신호를 보유한 데이터셋에서는 대형 추론 모델을 미세 조정하는 강화 학습 방법이 정체되곤 한다. 우리는 근본적인 질문을 탐구한다: 사전 학습된 LLM이 해결하지 못하는 문제에 대한 자동화된 커리큘럼을 생성하기 위해 잠재 지식을 활용할 수 있을까? 이를 탐구하기 위해 우리는 SOAR를 설계했다: 메타 강화 학습을 통해 이러한 교육적 신호를 표면화하도록 설계된 자기 개선 프레임워크이다. 모델의 교사 복사본이 학생 복사본을 위해 합성 문제를 제안하고, 소규모의 어려운 문제 하위 집합에 대한 학생의 향상된 성능으로 보상을 받는다. 중요한 것은, SOAR가 커리큘럼을 내재적 대리 보상이 아닌 측정된 학생의 진도에 기반을 둔다는 점이다. 수학적 벤치마크의 가장 어려운 하위 집합(초기 성공률 0/128)에 대한 우리의 연구는 세 가지 핵심 결과를 보여준다. 첫째, 유용한 디딤돌을 생성하는 사전 학습된 모델의 잠재 능력을 극대화함으로써, 희소하고 이진적인 보상 환경에서도 학습을 가능하게 하는 이중 수준 메타 강화 학습을 실현할 수 있음을 보여준다. 둘째, 실제 진도에 기반한 보상이 기존 LLM 자기 대전에서 사용되던 내재적 보상 체계를 능가하며, 일반적으로 나타나는 불안정성과 다양성 붕괴 모드를 안정적으로 회피한다. 셋째, 생성된 질문을 분석한 결과, 학습 진도에 있어 해답의 정확성보다 구조적 질문의 질과 명확성이 더 중요함을 확인했다. 우리의 결과는 유용한 디딤돌을 생성하는 능력이 실제로 어려운 문제를 해결할 수 있는 기존 능력을 필요로 하지 않음을 시사하며, 추가로 정제된 데이터 없이도 추론 정체기를 벗어날 수 있는 원칙적인 경로를 제시한다.
English
Can a model learn to escape its own learning plateau? Reinforcement learning methods for finetuning large reasoning models stall on datasets with low initial success rates, and thus little training signal. We investigate a fundamental question: Can a pretrained LLM leverage latent knowledge to generate an automated curriculum for problems it cannot solve? To explore this, we design SOAR: A self-improvement framework designed to surface these pedagogical signals through meta-RL. A teacher copy of the model proposes synthetic problems for a student copy, and is rewarded with its improvement on a small subset of hard problems. Critically, SOAR grounds the curriculum in measured student progress rather than intrinsic proxy rewards. Our study on the hardest subsets of mathematical benchmarks (0/128 success) reveals three core findings. First, we show that it is possible to realize bi-level meta-RL that unlocks learning under sparse, binary rewards by sharpening a latent capacity of pretrained models to generate useful stepping stones. Second, grounded rewards outperform intrinsic reward schemes used in prior LLM self-play, reliably avoiding the instability and diversity collapse modes they typically exhibit. Third, analyzing the generated questions reveals that structural quality and well-posedness are more critical for learning progress than solution correctness. Our results suggest that the ability to generate useful stepping stones does not require the preexisting ability to actually solve the hard problems, paving a principled path to escape reasoning plateaus without additional curated data.