ChatPaper.aiChatPaper

Kunnen LLM's hun eigen verkenning sturen? Gradiënt-gestuurd reinforcement learning voor LLM-redenering

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

December 17, 2025
Auteurs: Zhenwen Liang, Sidi Lu, Wenhao Yu, Kishan Panaganti, Yujun Zhou, Haitao Mi, Dong Yu
cs.AI

Samenvatting

Versterkend leren is essentieel geworden voor het verbeteren van de redeneervermogen van grote taalmodel(len), maar huidige verkenningmechanismen zijn fundamenteel niet afgestemd op hoe deze modellen daadwerkelijk leren. Entropiebonussen en externe semantische vergelijkers stimuleren variatie op oppervlakteniveau, maar bieden geen garantie dat bemonsterde trajecten verschillen in de update-richtingen die de optimalisatie vormgeven. Wij stellen G2RL voor, een gradient-gestuurd versterkend leerframework waarin verkenning niet wordt aangedreven door externe heuristieken, maar door de eigen eerste-orde-updategeometrie van het model. Voor elk antwoord construeert G2RL een sequentieniveaukenmerk uit de gevoeligheid van de laatste laag van het model, verkrijgbaar tegen verwaarloosbare kosten via een standaard forward pass, en meet het hoe elk traject het beleid zou hervormen door deze kenmerken binnen een bemonsterde groep te vergelijken. Trajecten die nieuwe gradient-richtingen introduceren, krijgen een begrensde multiplicatieve beloningsschaler, terwijl redundante of 'off-manifold'-updates worden afgezwakt. Dit levert een zelf-referentieel verkenning signaal op dat van nature is afgestemd op PPO-stabiliteit en KL-regeling. Op wiskundige en algemene redeneerbenchmarks (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) met Qwen3 base 1.7B- en 4B-modellen, verbetert G2RL consistent de pass@1, maj@16 en pass@k ten opzichte van op entropie gebaseerde GRPO en externe embedding-methoden. Analyse van de geïnduceerde geometrie toont aan dat G2RL de verkenning uitbreidt naar aanzienlijk meer orthogonale en vaak tegenovergestelde gradient-richtingen, terwijl de semantische samenhang behouden blijft. Dit onthult dat de eigen update-ruimte van een beleid een veel betrouwbaarder en effectievere basis biedt voor het sturen van verkenning bij versterkend leren voor grote taalmodel(len).
English
Reinforcement learning has become essential for strengthening the reasoning abilities of large language models, yet current exploration mechanisms remain fundamentally misaligned with how these models actually learn. Entropy bonuses and external semantic comparators encourage surface level variation but offer no guarantee that sampled trajectories differ in the update directions that shape optimization. We propose G2RL, a gradient guided reinforcement learning framework in which exploration is driven not by external heuristics but by the model own first order update geometry. For each response, G2RL constructs a sequence level feature from the model final layer sensitivity, obtainable at negligible cost from a standard forward pass, and measures how each trajectory would reshape the policy by comparing these features within a sampled group. Trajectories that introduce novel gradient directions receive a bounded multiplicative reward scaler, while redundant or off manifold updates are deemphasized, yielding a self referential exploration signal that is naturally aligned with PPO style stability and KL control. Across math and general reasoning benchmarks (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) on Qwen3 base 1.7B and 4B models, G2RL consistently improves pass@1, maj@16, and pass@k over entropy based GRPO and external embedding methods. Analyzing the induced geometry, we find that G2RL expands exploration into substantially more orthogonal and often opposing gradient directions while maintaining semantic coherence, revealing that a policy own update space provides a far more faithful and effective basis for guiding exploration in large language model reinforcement learning.
PDF132December 19, 2025