Un seul échantillon pour tous les gouverner : Efficacité extrême des données dans la mise à l'échelle de l'apprentissage par renforcement
One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling
January 6, 2026
papers.authors: Yiyuan Li, Zhen Huang, Yanan Wu, Weixun Wang, Xuefeng Li, Yijia Luo, Wenbo Su, Bo Zheng, Pengfei Liu
cs.AI
papers.abstract
La capacité de raisonnement des grands modèles de langage (LLM) peut être libérée par l'apprentissage par renforcement (RL) (OpenAI, 2024 ; DeepSeek-AI et al., 2025a ; Zeng et al., 2025). Le succès des tentatives existantes de RL sur les LLM repose généralement sur des échantillons de haute qualité, de l'ordre de plusieurs milliers ou plus. Dans cet article, nous remettons en question les hypothèses fondamentales concernant les besoins en données pour la RL sur les LLM en démontrant l'efficacité remarquable de l'apprentissage en un seul coup (*one-shot learning*). Plus précisément, nous introduisons l'*apprentissage polymathe*, un cadre pour concevoir un unique échantillon d'entraînement qui suscite un impact multidisciplinaire. Nous présentons trois résultats clés : (1) Un seul échantillon de raisonnement mathématique, sélectionné stratégiquement, peut produire des améliorations significatives des performances dans de multiples domaines, y compris la physique, la chimie et la biologie, grâce à la RL ; (2) Les compétences mathématiques saillantes pour le raisonnement suggèrent les caractéristiques de l'échantillon polymathe optimal ; et (3) Un échantillon synthétique conçu pour intégrer des éléments multidisciplinaires surpasse l'entraînement avec des échantillons individuels apparaissant naturellement. Notre approche obtient des performances supérieures à un entraînement avec des jeux de données plus volumineux sur divers benchmarks de raisonnement, démontrant que la qualité et la conception des échantillons, plutôt que leur quantité, pourraient être la clé pour débloquer des capacités de raisonnement accrues dans les modèles de langage. Nos résultats suggèrent un changement, que nous nommons *ingénierie des échantillons* (*sample engineering*), vers une conception précise des échantillons d'entraînement plutôt qu'une simple augmentation du volume de données.
English
The reasoning ability of large language models (LLMs) can be unleashed with reinforcement learning (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). The success of existing RL attempts in LLMs usually relies on high-quality samples of thousands or beyond. In this paper, we challenge fundamental assumptions about data requirements in RL for LLMs by demonstrating the remarkable effectiveness of one-shot learning. Specifically, we introduce polymath learning, a framework for designing one training sample that elicits multidisciplinary impact. We present three key findings: (1) A single, strategically selected math reasoning sample can produce significant performance improvements across multiple domains, including physics, chemistry, and biology with RL; (2) The math skills salient to reasoning suggest the characteristics of the optimal polymath sample; and (3) An engineered synthetic sample that integrates multidiscipline elements outperforms training with individual samples that naturally occur. Our approach achieves superior performance to training with larger datasets across various reasoning benchmarks, demonstrating that sample quality and design, rather than quantity, may be the key to unlock enhanced reasoning capabilities in language models. Our results suggest a shift, dubbed as sample engineering, toward precision engineering of training samples rather than simply increasing data volume.