Один образец для всех: Экстремальная эффективность данных при масштабировании обучения с подкреплением
One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling
January 6, 2026
Авторы: Yiyuan Li, Zhen Huang, Yanan Wu, Weixun Wang, Xuefeng Li, Yijia Luo, Wenbo Su, Bo Zheng, Pengfei Liu
cs.AI
Аннотация
Способность к рассуждениям у больших языковых моделей (LLM) может быть раскрыта с помощью обучения с подкреплением (RL) (OpenAI, 2024; DeepSeek-AI и др., 2025a; Zeng и др., 2025). Успех существующих попыток применения RL в LLM обычно зависит от высококачественных выборок объемом в тысячи примеров и более. В данной статье мы ставим под сомнение фундаментальные предположения о требованиях к данным в RL для LLM, демонстрируя впечатляющую эффективность обучения с одного примера. В частности, мы представляем polymath learning — подход к проектированию одного обучающего примера, который порождает междисциплинарный эффект. Мы представляем три ключевых результата: (1) Единственный, стратегически отобранный пример математического рассуждения может привести к значительному улучшению производительности в различных областях, включая физику, химию и биологию, при использовании RL; (2) Математические навыки, важные для рассуждений, указывают на характеристики оптимального полиматематического примера; и (3) Сконструированный синтетический пример, интегрирующий элементы из разных дисциплин, превосходит по эффективности обучение на отдельных естественно возникающих примерах. Наш подход демонстрирует превосходную производительность по сравнению с обучением на более крупных наборах данных в различных тестах на рассуждение, показывая, что качество и проектирование примера, а не его количество, могут быть ключом к раскрытию расширенных возможностей рассуждения в языковых моделях. Наши результаты указывают на сдвиг, названный инженерией примеров (sample engineering), в сторону точного проектирования обучающих примеров вместо простого увеличения объема данных.
English
The reasoning ability of large language models (LLMs) can be unleashed with reinforcement learning (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). The success of existing RL attempts in LLMs usually relies on high-quality samples of thousands or beyond. In this paper, we challenge fundamental assumptions about data requirements in RL for LLMs by demonstrating the remarkable effectiveness of one-shot learning. Specifically, we introduce polymath learning, a framework for designing one training sample that elicits multidisciplinary impact. We present three key findings: (1) A single, strategically selected math reasoning sample can produce significant performance improvements across multiple domains, including physics, chemistry, and biology with RL; (2) The math skills salient to reasoning suggest the characteristics of the optimal polymath sample; and (3) An engineered synthetic sample that integrates multidiscipline elements outperforms training with individual samples that naturally occur. Our approach achieves superior performance to training with larger datasets across various reasoning benchmarks, demonstrating that sample quality and design, rather than quantity, may be the key to unlock enhanced reasoning capabilities in language models. Our results suggest a shift, dubbed as sample engineering, toward precision engineering of training samples rather than simply increasing data volume.