サンプル一つで全てを支配する:強化学習スケーリングにおける極限的データ効率性
One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling
January 6, 2026
著者: Yiyuan Li, Zhen Huang, Yanan Wu, Weixun Wang, Xuefeng Li, Yijia Luo, Wenbo Su, Bo Zheng, Pengfei Liu
cs.AI
要旨
大規模言語モデル(LLM)の推論能力は、強化学習(RL)によって引き出される可能性がある(OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025)。LLMにおける既存のRL試みの成功は、通常、数千規模以上の高品質な学習サンプルに依存している。本論文では、ワンショット学習の驚くべき有効性を実証することにより、LLMに対するRLにおけるデータ要件に関する根本的な前提に挑戦する。具体的には、単一の訓練サンプルを設計することで学際的な影響を引き出す枠組みである、ポリマス学習を提案する。我々は3つの主要な発見を示す:(1)戦略的に選択された単一の数学推論サンプルが、RLを用いて物理学、化学、生物学を含む複数領域にわたる著しい性能向上をもたらす;(2)推論に重要な数学的スキルが、最適なポリマスサンプルの特性を示唆する;(3)学際的要素を統合した工学的に合成されたサンプルが、自然に発生する個別のサンプルを用いた訓練を凌駕する。本手法は、様々な推論ベンチマークにおいて、より大規模なデータセットを用いた訓練よりも優れた性能を達成し、サンプルの量ではなく、質と設計が言語モデルの強化された推論能力を解放する鍵である可能性を示唆する。我々の結果は、単にデータ量を増やすのではなく、訓練サンプルを精密に設計する「サンプルエンジニアリング」と呼ばれるパラダイムシフトを示唆している。
English
The reasoning ability of large language models (LLMs) can be unleashed with reinforcement learning (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). The success of existing RL attempts in LLMs usually relies on high-quality samples of thousands or beyond. In this paper, we challenge fundamental assumptions about data requirements in RL for LLMs by demonstrating the remarkable effectiveness of one-shot learning. Specifically, we introduce polymath learning, a framework for designing one training sample that elicits multidisciplinary impact. We present three key findings: (1) A single, strategically selected math reasoning sample can produce significant performance improvements across multiple domains, including physics, chemistry, and biology with RL; (2) The math skills salient to reasoning suggest the characteristics of the optimal polymath sample; and (3) An engineered synthetic sample that integrates multidiscipline elements outperforms training with individual samples that naturally occur. Our approach achieves superior performance to training with larger datasets across various reasoning benchmarks, demonstrating that sample quality and design, rather than quantity, may be the key to unlock enhanced reasoning capabilities in language models. Our results suggest a shift, dubbed as sample engineering, toward precision engineering of training samples rather than simply increasing data volume.