Uma Amostra para Governar Todas: Eficiência Extrema de Dados na Escalagem de Aprendizagem por Reforço

Resumo

A capacidade de raciocínio de modelos de linguagem de grande escala (LLMs) pode ser libertada com aprendizagem por reforço (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). O sucesso das tentativas existentes de RL em LLMs depende geralmente de amostras de alta qualidade na ordem dos milhares ou mais. Neste artigo, questionamos pressupostos fundamentais sobre os requisitos de dados em RL para LLMs, demonstrando a notável eficácia da aprendizagem *one-shot*. Especificamente, introduzimos a *polymath learning*, uma estrutura para conceber uma única amostra de treino que suscita um impacto multidisciplinar. Apresentamos três conclusões principais: (1) Uma única amostra de raciocínio matemático, estrategicamente selecionada, pode produzir melhorias de desempenho significativas em múltiplos domínios, incluindo física, química e biologia, com RL; (2) As competências matemáticas salientes para o raciocínio sugerem as características da amostra *polymath* ideal; e (3) Uma amostra sintética concebida que integra elementos multidisciplinares supera o treino com amostras individuais que ocorrem naturalmente. A nossa abordagem atinge um desempenho superior ao treino com conjuntos de dados maiores em várias benchmarks de raciocínio, demonstrando que a qualidade e o desenho da amostra, em vez da quantidade, podem ser a chave para libertar capacidades de raciocínio melhoradas em modelos de linguagem. Os nossos resultados sugerem uma mudança, designada por *sample engineering*, no sentido da engenharia de precisão de amostras de treino, em vez de simplesmente aumentar o volume de dados.

English

The reasoning ability of large language models (LLMs) can be unleashed with reinforcement learning (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). The success of existing RL attempts in LLMs usually relies on high-quality samples of thousands or beyond. In this paper, we challenge fundamental assumptions about data requirements in RL for LLMs by demonstrating the remarkable effectiveness of one-shot learning. Specifically, we introduce polymath learning, a framework for designing one training sample that elicits multidisciplinary impact. We present three key findings: (1) A single, strategically selected math reasoning sample can produce significant performance improvements across multiple domains, including physics, chemistry, and biology with RL; (2) The math skills salient to reasoning suggest the characteristics of the optimal polymath sample; and (3) An engineered synthetic sample that integrates multidiscipline elements outperforms training with individual samples that naturally occur. Our approach achieves superior performance to training with larger datasets across various reasoning benchmarks, demonstrating that sample quality and design, rather than quantity, may be the key to unlock enhanced reasoning capabilities in language models. Our results suggest a shift, dubbed as sample engineering, toward precision engineering of training samples rather than simply increasing data volume.

Uma Amostra para Governar Todas: Eficiência Extrema de Dados na Escalagem de Aprendizagem por Reforço

One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling

Resumo

Support