Un Campione per Governarli Tutti: Efficienza Estrema dei Dati nella Scalabilità del RL

Abstract

La capacità di ragionamento dei grandi modelli linguistici (LLM) può essere potenziata mediante l'apprendimento per rinforzo (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). Il successo dei tentativi di RL esistenti sugli LLM si basa solitamente su campioni di alta qualità nell'ordine delle migliaia o più. In questo articolo, mettiamo in discussione i presupposti fondamentali sui requisiti dati nel RL per gli LLM dimostrando la straordinaria efficacia dell'apprendimento one-shot. Nello specifico, introduciamo il *polymath learning*, un framework per progettare un singolo campione di addestramento in grado di elicitare un impatto multidisciplinare. Presentiamo tre risultati chiave: (1) Un singolo campione di ragionamento matematico, selezionato strategicamente, può produrre miglioramenti significativi delle prestazioni in molteplici domini, inclusi fisica, chimica e biologia, tramite RL; (2) Le abilità matematiche salienti per il ragionamento suggeriscono le caratteristiche del campione polimatico ottimale; e (3) Un campione sintetico progettato che integra elementi multidisciplinari supera l'addestramento con singoli campioni che occorrono naturalmente. Il nostro approccio raggiunge prestazioni superiori rispetto all'addestramento con dataset più grandi su vari benchmark di ragionamento, dimostrando che la qualità e la progettazione del campione, piuttosto che la quantità, potrebbero essere la chiave per sbloccare capacità di ragionamento potenziate nei modelli linguistici. I nostri risultati suggeriscono un cambiamento di paradigma, denominato *sample engineering*, verso una progettazione di precisione dei campioni di addestramento piuttosto che il semplice aumento del volume dei dati.

English

The reasoning ability of large language models (LLMs) can be unleashed with reinforcement learning (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). The success of existing RL attempts in LLMs usually relies on high-quality samples of thousands or beyond. In this paper, we challenge fundamental assumptions about data requirements in RL for LLMs by demonstrating the remarkable effectiveness of one-shot learning. Specifically, we introduce polymath learning, a framework for designing one training sample that elicits multidisciplinary impact. We present three key findings: (1) A single, strategically selected math reasoning sample can produce significant performance improvements across multiple domains, including physics, chemistry, and biology with RL; (2) The math skills salient to reasoning suggest the characteristics of the optimal polymath sample; and (3) An engineered synthetic sample that integrates multidiscipline elements outperforms training with individual samples that naturally occur. Our approach achieves superior performance to training with larger datasets across various reasoning benchmarks, demonstrating that sample quality and design, rather than quantity, may be the key to unlock enhanced reasoning capabilities in language models. Our results suggest a shift, dubbed as sample engineering, toward precision engineering of training samples rather than simply increasing data volume.

Un Campione per Governarli Tutti: Efficienza Estrema dei Dati nella Scalabilità del RL

One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling

Abstract

Support