Una Muestra para Gobernarlas a Todas: Eficiencia de Datos Extrema en el Escalado del Aprendizaje por Refuerzo
One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling
January 6, 2026
Autores: Yiyuan Li, Zhen Huang, Yanan Wu, Weixun Wang, Xuefeng Li, Yijia Luo, Wenbo Su, Bo Zheng, Pengfei Liu
cs.AI
Resumen
La capacidad de razonamiento de los grandes modelos de lenguaje (LLMs) puede ser potenciada mediante el aprendizaje por refuerzo (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). El éxito de los intentos existentes de RL en LLMs suele depender de muestras de alta calidad que ascienden a miles o más. En este artículo, cuestionamos los supuestos fundamentales sobre los requisitos de datos en RL para LLMs al demostrar la notable eficacia del aprendizaje one-shot. Específicamente, presentamos el *polymath learning*, un marco para diseñar una única muestra de entrenamiento que genera un impacto multidisciplinario. Presentamos tres hallazgos clave: (1) Una única muestra de razonamiento matemático, seleccionada estratégicamente, puede producir mejoras significativas de rendimiento en múltiples dominios, incluyendo física, química y biología, mediante RL; (2) Las habilidades matemáticas relevantes para el razonamiento sugieren las características de la muestra *polymath* óptima; y (3) Una muestra sintética diseñada que integra elementos multidisciplinares supera al entrenamiento con muestras individuales que aparecen de forma natural. Nuestro enfoque logra un rendimiento superior al entrenamiento con conjuntos de datos más grandes en varios benchmarks de razonamiento, lo que demuestra que la calidad y el diseño de la muestra, más que la cantidad, podrían ser la clave para desbloquear capacidades de razonamiento mejoradas en los modelos de lenguaje. Nuestros resultados sugieren un cambio, denominado *sample engineering* (ingeniería de muestras), hacia la ingeniería de precisión de las muestras de entrenamiento en lugar de simplemente aumentar el volumen de datos.
English
The reasoning ability of large language models (LLMs) can be unleashed with reinforcement learning (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). The success of existing RL attempts in LLMs usually relies on high-quality samples of thousands or beyond. In this paper, we challenge fundamental assumptions about data requirements in RL for LLMs by demonstrating the remarkable effectiveness of one-shot learning. Specifically, we introduce polymath learning, a framework for designing one training sample that elicits multidisciplinary impact. We present three key findings: (1) A single, strategically selected math reasoning sample can produce significant performance improvements across multiple domains, including physics, chemistry, and biology with RL; (2) The math skills salient to reasoning suggest the characteristics of the optimal polymath sample; and (3) An engineered synthetic sample that integrates multidiscipline elements outperforms training with individual samples that naturally occur. Our approach achieves superior performance to training with larger datasets across various reasoning benchmarks, demonstrating that sample quality and design, rather than quantity, may be the key to unlock enhanced reasoning capabilities in language models. Our results suggest a shift, dubbed as sample engineering, toward precision engineering of training samples rather than simply increasing data volume.