Eine Probe, um sie alle zu beherrschen: Extreme Dateneffizienz beim Skalieren von Reinforcement Learning
One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling
January 6, 2026
papers.authors: Yiyuan Li, Zhen Huang, Yanan Wu, Weixun Wang, Xuefeng Li, Yijia Luo, Wenbo Su, Bo Zheng, Pengfei Liu
cs.AI
papers.abstract
Die Fähigkeit zum logischen Denken großer Sprachmodelle (LLMs) kann durch Reinforcement Learning (RL) freigesetzt werden (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). Der Erfolg bestehender RL-Versuche bei LLMs beruht in der Regel auf hochwertigen Stichproben im Umfang von Tausenden oder mehr. In diesem Papier stellen wir grundlegende Annahmen zu den Datenanforderungen von RL für LLMs in Frage, indem wir die bemerkenswerte Wirksamkeit von One-Shot-Lernen demonstrieren. Konkret führen wir das Polymath-Lernen ein, einen Rahmen zur Gestaltung einer einzigen Trainingsstichprobe, die multidisziplinäre Wirkung entfaltet. Wir präsentieren drei zentrale Erkenntnisse: (1) Eine einzige, strategisch ausgewählte Stichprobe aus dem Bereich des mathematischen Denkens kann signifikante Leistungsverbesserungen in mehreren Domänen, einschließlich Physik, Chemie und Biologie, mittels RL bewirken; (2) Die für das Denken wesentlichen mathematischen Fähigkeiten deuten auf die Eigenschaften der optimalen Polymath-Stichprobe hin; und (3) Eine konstruierte synthetische Stichprobe, die multidisziplinäre Elemente integriert, übertrifft das Training mit einzelnen, natürlich vorkommenden Stichproben. Unser Ansatz erzielt eine höhere Leistung als das Training mit größeren Datensätzen in verschiedenen Reasoning-Benchmarks und zeigt, dass Stichprobenqualität und -design, eher als Quantität, der Schlüssel zur Entfaltung verbesserter Denkfähigkeiten in Sprachmodellen sein könnten. Unsere Ergebnisse deuten auf einen Wandel hin, den wir als Stichproben-Engineering bezeichnen, hin zur präzisen Gestaltung von Trainingsstichproben anstatt zur schlichten Erhöhung des Datenvolumens.
English
The reasoning ability of large language models (LLMs) can be unleashed with reinforcement learning (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). The success of existing RL attempts in LLMs usually relies on high-quality samples of thousands or beyond. In this paper, we challenge fundamental assumptions about data requirements in RL for LLMs by demonstrating the remarkable effectiveness of one-shot learning. Specifically, we introduce polymath learning, a framework for designing one training sample that elicits multidisciplinary impact. We present three key findings: (1) A single, strategically selected math reasoning sample can produce significant performance improvements across multiple domains, including physics, chemistry, and biology with RL; (2) The math skills salient to reasoning suggest the characteristics of the optimal polymath sample; and (3) An engineered synthetic sample that integrates multidiscipline elements outperforms training with individual samples that naturally occur. Our approach achieves superior performance to training with larger datasets across various reasoning benchmarks, demonstrating that sample quality and design, rather than quantity, may be the key to unlock enhanced reasoning capabilities in language models. Our results suggest a shift, dubbed as sample engineering, toward precision engineering of training samples rather than simply increasing data volume.