Perturbación Adaptativa por Capas: Unificación de Correcciones Fuera de Política para RL en LLM

Resumen

Los problemas de política fuera de línea, como el estancamiento de políticas y la discrepancia entre entrenamiento e inferencia, se han convertido en un cuello de botella para la estabilidad del entrenamiento y la exploración adicional en el RL para LLM. Para mejorar la eficiencia inferencial, la brecha distribucional entre la inferencia y la política actualizada se amplía, generando ratios de importancia de cola pesada. Estos ratios surgen cuando la política es localmente abrupta, lo que infla aún más los gradientes pronunciados y puede empujar las actualizaciones fuera de la región de confianza. Para abordarlo, proponemos Perturbación Adaptativa por Capas (ALP), inyectando pequeñas perturbaciones entrenables en los estados ocultos de entrada de cada capa durante las actualizaciones, utilizadas como numerador del ratio de importancia frente a la política de inferencia inalterada en el objetivo. Intuitivamente, al añadir ruido controlado a las representaciones intermedias, ALP evita que la política actualizada se desvíe abruptamente de la política de inferencia y amplía la familia de políticas para cubrir la familia de políticas de inferencia con ruidos de discrepancia. Así, la distribución aplanada reduce naturalmente la brecha entre políticas actualizada e inferencial y atenúa la cola de los ratios de importancia, manteniendo la estabilidad del entrenamiento. Esto se valida empíricamente. Experimentos en tareas de razonamiento matemático de un solo turno y de razonamiento con herramientas multi-turno muestran que ALP no solo mejora el rendimiento final, sino que también evita la explosión de la cola del ratio de importancia y los picos de KL durante el entrenamiento iterativo, junto con una exploración potenciada. Ablaciones demuestran que las perturbaciones a nivel de representación en todas las capas son más efectivas, superando sustancialmente a variantes de capas parciales y solo logits.

English

Off-policy problems such as policy staleness and training-inference mismatch, has become a major bottleneck for training stability and further exploration for LLM RL. To enhance inference efficiency, the distribution gap between the inference and updated policy grows, leading to heavy-tailed importance ratios. Heavy-tailed ratios arise when the policy is locally sharp, which further inflates sharp gradients and can push updates outside the trust region. To address this, we propose Adaptive Layerwise Perturbation(ALP) by injecting small learnable perturbations into input hidden states of each layer during updates, which is used as the numerator of the importance ratio against the unchanged inference policy in the objective. Intuitively, by adding controlled noise to intermediate representations, ALP prevents the updated policy from deviating too sharply from the inference policy, and enlarges the policy family to cover the inference policy family with mismatch noises. Hence, the flattened distribution can naturally tighten the updated and inference policy gap and reduce the tail of importance ratios, thus maintaining training stability. This is further validated empirically. Experiments on single-turn math and multi-turn tool-integrated reasoning tasks show that ALP not only improves final performance, but also avoid blow up of importance ratio tail and KL spikes during iterative training, along with boosted exploration. Ablations show that representation-level perturbations across all layers are most effective, substantially outperforming partial-layer and logits-only variants.

Perturbación Adaptativa por Capas: Unificación de Correcciones Fuera de Política para RL en LLM

Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL

Resumen

Support