Adaptieve Laaggewijze Perturbatie: Unificatie van Off-Policy Correcties voor LLM RL

Samenvatting

Off-policy-problemen zoals *policy staleness* (verouderd beleid) en de mismatch tussen training en inferentie zijn een grote bottleneck geworden voor de trainingsstabiliteit en verdere exploratie bij LLM RL. Om de inferentie-efficiëntie te verbeteren, groeit de distributiekloof tussen het inferentie- en het bijgewerkte beleid, wat leidt tot zwaarstaartige importantieverhoudingen. Zwaarstaartige verhoudingen ontstaan wanneer het beleid lokaal scherp is, wat de scherpe gradiënten verder opblaast en updates buiten het vertrouwensgebied kan duwen. Om dit aan te pakken, stellen we Adaptive Layerwise Perturbation (ALP) voor door kleine leerbare perturbaties toe te voegen aan de verborgen toestandsvectoren van de invoer in elke laag tijdens updates. Deze perturbaties worden gebruikt als de teller van de importantieverhouding tegen het ongewijzigde inferentiebeleid in de doelfunctie. Intuïtief gezien voorkomt ALP, door gecontroleerde ruis aan tussenliggende representaties toe te voegen, dat het bijgewerkte beleid te scherp afwijkt van het inferentiebeleid, en vergroot het de beleidsfamilie om de inferentiebeleidsfamilie te omvatten, inclusief mismatch-ruis. Hierdoor kan de afgevlakte distributie de kloof tussen het bijgewerkte en het inferentiebeleid van nature verkleinen en de staart van de importantieverhoudingen verminderen, waardoor de trainingsstabiliteit behouden blijft. Dit wordt verder empirisch gevalideerd. Experimenten op taken met enkelvoudige wiskundige redenering en meervoudige tool-geïntegreerde redenering tonen aan dat ALP niet alleen de uiteindelijke prestaties verbetert, maar ook een explosie van de importantieverhoudingsstaart en KL-pieken tijdens iteratieve training vermijdt, samen met een verbeterde exploratie. Ablatiestudies tonen aan dat perturbaties op representatieniveau over alle lagen het meest effectief zijn, wat aanzienlijk beter presteert dan varianten met gedeeltelijke lagen of alleen logits.

English

Off-policy problems such as policy staleness and training-inference mismatch, has become a major bottleneck for training stability and further exploration for LLM RL. To enhance inference efficiency, the distribution gap between the inference and updated policy grows, leading to heavy-tailed importance ratios. Heavy-tailed ratios arise when the policy is locally sharp, which further inflates sharp gradients and can push updates outside the trust region. To address this, we propose Adaptive Layerwise Perturbation(ALP) by injecting small learnable perturbations into input hidden states of each layer during updates, which is used as the numerator of the importance ratio against the unchanged inference policy in the objective. Intuitively, by adding controlled noise to intermediate representations, ALP prevents the updated policy from deviating too sharply from the inference policy, and enlarges the policy family to cover the inference policy family with mismatch noises. Hence, the flattened distribution can naturally tighten the updated and inference policy gap and reduce the tail of importance ratios, thus maintaining training stability. This is further validated empirically. Experiments on single-turn math and multi-turn tool-integrated reasoning tasks show that ALP not only improves final performance, but also avoid blow up of importance ratio tail and KL spikes during iterative training, along with boosted exploration. Ablations show that representation-level perturbations across all layers are most effective, substantially outperforming partial-layer and logits-only variants.

Adaptieve Laaggewijze Perturbatie: Unificatie van Off-Policy Correcties voor LLM RL

Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL

Samenvatting

Support