Perturbação Adaptativa por Camadas: Unificando Correções de Política Externa para RL de LLM

Resumo

Problemas fora da política, como a estagnação da política e o descompasso entre treinamento e inferência, tornaram-se um grande gargalo para a estabilidade do treinamento e para a exploração adicional no RL para LLMs. Para melhorar a eficiência da inferência, a lacuna distributiva entre a política de inferência e a política atualizada aumenta, levando a razões de importância de cauda pesada. Razões de cauda pesada surgem quando a política é localmente afiada, o que infla ainda mais os gradientes abruptos e pode empurrar as atualizações para fora da região de confiança. Para resolver isso, propomos a Perturbação Adaptativa por Camadas (ALP), injetando pequenas perturbações aprendíveis nos estados ocultos de entrada de cada camada durante as atualizações, as quais são usadas como numerador da razão de importância contra a política de inferência inalterada no objetivo. Intuitivamente, ao adicionar ruído controlado às representações intermediárias, o ALP impede que a política atualizada se desvie de forma muito abrupta da política de inferência e amplia a família de políticas para cobrir a família de políticas de inferência com ruídos de descompasso. Assim, a distribuição achatada pode naturalmente reduzir a lacuna entre a política atualizada e a de inferência e diminuir a cauda das razões de importância, mantendo assim a estabilidade do treinamento. Isto é validado empiricamente. Experimentos em tarefas de raciocínio matemático de turno único e de raciocínio com integração de ferramentas de múltiplos turnos mostram que o ALP não só melhora o desempenho final, mas também evita a explosão da cauda da razão de importância e os picos de KL durante o treinamento iterativo, juntamente com uma exploração impulsionada. Ablações mostram que perturbações no nível de representação em todas as camadas são mais eficazes, superando substancialmente as variantes de camadas parciais e apenas nos logits.

English

Off-policy problems such as policy staleness and training-inference mismatch, has become a major bottleneck for training stability and further exploration for LLM RL. To enhance inference efficiency, the distribution gap between the inference and updated policy grows, leading to heavy-tailed importance ratios. Heavy-tailed ratios arise when the policy is locally sharp, which further inflates sharp gradients and can push updates outside the trust region. To address this, we propose Adaptive Layerwise Perturbation(ALP) by injecting small learnable perturbations into input hidden states of each layer during updates, which is used as the numerator of the importance ratio against the unchanged inference policy in the objective. Intuitively, by adding controlled noise to intermediate representations, ALP prevents the updated policy from deviating too sharply from the inference policy, and enlarges the policy family to cover the inference policy family with mismatch noises. Hence, the flattened distribution can naturally tighten the updated and inference policy gap and reduce the tail of importance ratios, thus maintaining training stability. This is further validated empirically. Experiments on single-turn math and multi-turn tool-integrated reasoning tasks show that ALP not only improves final performance, but also avoid blow up of importance ratio tail and KL spikes during iterative training, along with boosted exploration. Ablations show that representation-level perturbations across all layers are most effective, substantially outperforming partial-layer and logits-only variants.

Perturbação Adaptativa por Camadas: Unificando Correções de Política Externa para RL de LLM

Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL

Resumo

Support