ChatPaper.aiChatPaper

De f(x) e g(x) para f(g(x)): LLMs Aprendem Novas Habilidades em RL Compondo as Antigas

From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones

September 29, 2025
Autores: Lifan Yuan, Weize Chen, Yuchen Zhang, Ganqu Cui, Hanbin Wang, Ziming You, Ning Ding, Zhiyuan Liu, Maosong Sun, Hao Peng
cs.AI

Resumo

O RL ensina habilidades genuinamente novas aos LLMs, ou ele apenas ativa habilidades já existentes? Essa questão está no cerne dos debates em curso sobre o papel do RL no pós-treinamento de LLMs. Por um lado, resultados empíricos robustos podem ser alcançados com RL mesmo sem um ajuste fino supervisionado prévio; por outro, críticos argumentam que o RL contribui pouco além de reajustar estratégias de raciocínio já existentes. Este trabalho fornece evidências concretas de que os LLMs podem adquirir habilidades genuinamente novas durante o RL ao compor habilidades existentes, refletindo um dos mecanismos centrais pelos quais os humanos adquirem novas habilidades cognitivas. Para mitigar a contaminação de dados e outros fatores de confusão, e para permitir um controle preciso sobre a complexidade das tarefas, desenvolvemos uma estrutura sintética para nossa investigação. Especificamente, definimos uma habilidade como a capacidade de inferir a saída de uma função de transformação de strings f(x) dado x. Quando um LLM já aprendeu f e g antes do RL, nossos experimentos revelam que o RL permite que ele aprenda composições não vistas delas, como h(x)=g(f(x)). Além disso, essa capacidade composicional generaliza para problemas mais difíceis, como composições de >2 funções não vistas durante o treinamento de RL. Surpreendentemente, nossos experimentos mostram que a habilidade composicional adquirida em uma tarefa de origem se transfere para uma tarefa de destino diferente. Essa transferência ocorre mesmo sem treinamento composicional no destino, exigindo apenas conhecimento prévio das habilidades atômicas da tarefa de destino. Nossa análise qualitativa mostra que o RL muda fundamentalmente os comportamentos de raciocínio dos modelos. Em contraste, o treinamento de próximo token com os mesmos dados não produz nenhum desses resultados. Nossos experimentos sistemáticos fornecem novas perspectivas sobre o aprendizado de LLMs, sugerindo o valor de primeiro construir modelos base com habilidades básicas e, em seguida, usar o RL para incentivar habilidades avançadas e generalizáveis para problemas complexos.
English
Does RL teach LLMs genuinely new skills, or does it merely activate existing ones? This question lies at the core of ongoing debates about the role of RL in LLM post-training. On one side, strong empirical results can be achieved with RL even without preceding supervised finetuning; on the other, critics argue that RL contributes little beyond reweighting existing reasoning strategies. This work provides concrete evidence that LLMs can acquire genuinely new skills during RL by composing existing ones, mirroring one of the central mechanisms by which humans acquire new cognitive skills. To mitigate data contamination and other confounding factors, and to allow precise control over task complexity, we develop a synthetic framework for our investigation. Specifically, we define a skill as the ability to infer the output of a string transformation function f(x) given x. When an LLM has already learned f and g prior to RL, our experiments reveal that RL enables it to learn unseen compositions of them h(x)=g(f(x)). Further, this compositional ability generalizes to more difficult problems such as compositions of >2 functions unseen during RL training. Surprisingly, our experiments show that compositional skill acquired on a source task transfers to a different target task. This transfer happens even without compositional training on the target, requiring only prior knowledge of the target's atomic skills. Our qualitative analysis shows that RL fundamentally changes the reasoning behaviors of the models. In contrast, next-token training with the same data yields none of these findings. Our systematic experiments provide fresh insights into LLM learning, suggesting the value of first building base models with basic skills, then using RL to incentivize advanced, generalizable skills for complex problems.
PDF172September 30, 2025