단 하나의 샘플로 모두를 제어하다: 강화학습 확장에서의 극한 데이터 효율성
One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling
January 6, 2026
저자: Yiyuan Li, Zhen Huang, Yanan Wu, Weixun Wang, Xuefeng Li, Yijia Luo, Wenbo Su, Bo Zheng, Pengfei Liu
cs.AI
초록
대규모 언어 모델(LLM)의 추론 능력은 강화 학습(RL)을 통해 극대화될 수 있다(OpenAI, 2024; DeepSeek-AI 외, 2025a; Zeng 외, 2025). 기존의 LLM에 대한 RL 시도의 성공은 일반적으로 수천 개 이상의 고품질 샘플에 의존한다. 본 논문에서는 원샷 학습의 놀라운 효과성을 입증함으로써 LLM을 위한 RL의 데이터 요구 사항에 대한 근본적인 가정에 의문을 제기한다. 구체적으로, 우리는 단 하나의 훈련 샘플로 다학제적 영향을 끌어내는 프레임워크인 폴리매스 학습(polymath learning)을 소개한다. 우리는 세 가지 핵심 발견을 제시한다: (1) 전략적으로 선별된 단일 수학 추론 샘플이 RL을 통해 물리학, 화학, 생물학 등 여러 영역에 걸쳐 상당한 성능 향상을 가져올 수 있다; (2) 추론에 중요한 수학적 스킬은 최적의 폴리매스 샘플의 특성을 시사한다; (3) 다학제적 요소를 통합한 공학적으로 합성된 샘플이 자연적으로 발생하는 개별 샘플을 사용한 훈련보다 성능이 우수하다. 우리의 접근 방식은 다양한 추론 벤치마크에서 더 큰 데이터셋을 사용한 훈련보다 우수한 성능을 달성하며, 언어 모델의 향상된 추론 능력을 개방하는 열쇠가 샘플의 양이 아닌 질과 설계에 있을 수 있음을 입증한다. 우리의 결과는 단순히 데이터 양을 늘리는 것이 아닌 훈련 샘플을 정밀하게 설계하는 방향으로의 전환, 즉 '샘플 엔지니어링(sample engineering)'의 필요성을 제시한다.
English
The reasoning ability of large language models (LLMs) can be unleashed with reinforcement learning (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). The success of existing RL attempts in LLMs usually relies on high-quality samples of thousands or beyond. In this paper, we challenge fundamental assumptions about data requirements in RL for LLMs by demonstrating the remarkable effectiveness of one-shot learning. Specifically, we introduce polymath learning, a framework for designing one training sample that elicits multidisciplinary impact. We present three key findings: (1) A single, strategically selected math reasoning sample can produce significant performance improvements across multiple domains, including physics, chemistry, and biology with RL; (2) The math skills salient to reasoning suggest the characteristics of the optimal polymath sample; and (3) An engineered synthetic sample that integrates multidiscipline elements outperforms training with individual samples that naturally occur. Our approach achieves superior performance to training with larger datasets across various reasoning benchmarks, demonstrating that sample quality and design, rather than quantity, may be the key to unlock enhanced reasoning capabilities in language models. Our results suggest a shift, dubbed as sample engineering, toward precision engineering of training samples rather than simply increasing data volume.