Eén Monster om Allen te Regeren: Extreme Datadoeltreffendheid bij de Schaalvergroting van RL

Samenvatting

Het redeneervermogen van grote taalmmodellen (LLM's) kan worden vrijgegeven met reinforcement learning (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). Het succes van bestaande RL-pogingen in LLM's is meestal afhankelijk van hoogwaardige samples van duizenden of meer. In dit artikel dagen we de fundamentele aannames over de gegevensvereisten bij RL voor LLM's uit door de opmerkelijke effectiviteit van one-shot learning aan te tonen. Concreet introduceren we *polymath learning*, een raamwerk voor het ontwerpen van één enkele trainingssample die een multidisciplinaire impact heeft. We presenteren drie belangrijke bevindingen: (1) Een enkele, strategisch geselecteerde sample voor wiskundig redeneren kan aanzienlijke prestatieverbeteringen teweegbrengen op meerdere domeinen, waaronder natuurkunde, scheikunde en biologie, met RL; (2) De voor redeneren cruciale wiskundevaardigheden wijzen op de kenmerken van de optimale polymath-sample; en (3) Een ontworpen synthetische sample die multidisciplinaire elementen integreert, presteert beter dan training met afzonderlijke samples die van nature voorkomen. Onze aanlei

English

The reasoning ability of large language models (LLMs) can be unleashed with reinforcement learning (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). The success of existing RL attempts in LLMs usually relies on high-quality samples of thousands or beyond. In this paper, we challenge fundamental assumptions about data requirements in RL for LLMs by demonstrating the remarkable effectiveness of one-shot learning. Specifically, we introduce polymath learning, a framework for designing one training sample that elicits multidisciplinary impact. We present three key findings: (1) A single, strategically selected math reasoning sample can produce significant performance improvements across multiple domains, including physics, chemistry, and biology with RL; (2) The math skills salient to reasoning suggest the characteristics of the optimal polymath sample; and (3) An engineered synthetic sample that integrates multidiscipline elements outperforms training with individual samples that naturally occur. Our approach achieves superior performance to training with larger datasets across various reasoning benchmarks, demonstrating that sample quality and design, rather than quantity, may be the key to unlock enhanced reasoning capabilities in language models. Our results suggest a shift, dubbed as sample engineering, toward precision engineering of training samples rather than simply increasing data volume.

Eén Monster om Allen te Regeren: Extreme Datadoeltreffendheid bij de Schaalvergroting van RL

One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling

Samenvatting

Support