Quando os LLMs Podem Aprender a Raciocinar com Supervisão Fraca?

Resumo

Os modelos de linguagem de grande escala alcançaram melhorias significativas de raciocínio através do aprendizado por reforço com recompensas verificáveis (RLVR). No entanto, à medida que as capacidades dos modelos aumentam, a construção de sinais de recompensa de alta qualidade torna-se cada vez mais difícil, tornando-se essencial entender quando o RLVR pode ter sucesso sob formas mais fracas de supervisão. Realizamos um estudo empírico sistemático em diversas famílias de modelos e domínios de raciocínio sob três configurações de supervisão fraca: dados escassos, recompensas ruidosas e recompensas proxy auto supervisionadas. Descobrimos que a generalização é governada pela dinâmica de saturação da recompensa de treinamento: modelos que generalizam exibem uma fase prolongada de pré-saturação durante a qual a recompensa de treinamento e o desempenho subsequente aumentam em conjunto, enquanto modelos que saturam rapidamente memorizam em vez de aprender. Identificamos a fidedignidade do raciocínio, definida como a extensão em que as etapas intermediárias suportam logicamente a resposta final, como a propriedade pré-RL que prevê em qual regime um modelo se enquadra, enquanto a diversidade de saída por si só não é informativa. Motivados por essas descobertas, separamos as contribuições do pré-treinamento contínuo e do ajuste fino supervisionado, descobrindo que o SFT em trajetórias de raciocínio explícitas é necessário para a generalização sob supervisão fraca, enquanto o pré-treinamento contínuo em dados do domínio amplifica o efeito. Aplicadas em conjunto ao Llama3.2-3B-Base, essas intervenções permitem a generalização em todas as três configurações onde o modelo base anteriormente falhava.

English

Large language models have achieved significant reasoning improvements through reinforcement learning with verifiable rewards (RLVR). Yet as model capabilities grow, constructing high-quality reward signals becomes increasingly difficult, making it essential to understand when RLVR can succeed under weaker forms of supervision. We conduct a systematic empirical study across diverse model families and reasoning domains under three weak supervision settings: scarce data, noisy rewards, and self-supervised proxy rewards. We find that generalization is governed by training reward saturation dynamics: models that generalize exhibit a prolonged pre-saturation phase during which training reward and downstream performance climb together, while models that saturate rapidly memorize rather than learn. We identify reasoning faithfulness, defined as the extent to which intermediate steps logically support the final answer, as the pre-RL property that predicts which regime a model falls into, while output diversity alone is uninformative. Motivated by these findings, we disentangle the contributions of continual pre-training and supervised fine-tuning, finding that SFT on explicit reasoning traces is necessary for generalization under weak supervision, while continual pre-training on domain data amplifies the effect. Applied together to Llama3.2-3B-Base, these interventions enable generalization across all three settings where the base model previously failed.

Quando os LLMs Podem Aprender a Raciocinar com Supervisão Fraca?

When Can LLMs Learn to Reason with Weak Supervision?

Resumo

Support