Können LLMs ihre eigene Erkundung lenken? Gradientengesteuertes Reinforcement Learning für das LLM-Denkvermögen
Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning
December 17, 2025
papers.authors: Zhenwen Liang, Sidi Lu, Wenhao Yu, Kishan Panaganti, Yujun Zhou, Haitao Mi, Dong Yu
cs.AI
papers.abstract
Reinforcement Learning ist entscheidend geworden, um die Reasoning-Fähigkeiten großer Sprachmodelle zu stärken, doch bestehende Explorationsmechanismen sind grundlegend fehlausgerichtet mit der Art und Weise, wie diese Modelle tatsächlich lernen. Entropie-Boni und externe semantische Komparatoren fördern oberflächliche Variation, bieten aber keine Garantie dafür, dass gesampelte Trajektorien sich in den Update-Richtungen unterscheiden, welche die Optimierung prägen. Wir schlagen G2RL vor, einen Gradienten-geführten Reinforcement-Learning-Rahmen, in dem Exploration nicht durch externe Heuristiken, sondern durch die interne Update-Geometrie erster Ordnung des Modells gesteuert wird. Für jede Antwort konstruiert G2RL ein Sequenz-level-Merkmal aus der Sensitivität der letzten Modellschicht, die mit vernachlässigbarem Aufwand aus einem Standard-Forward-Pass gewonnen werden kann, und misst, wie jede Trajektorie die Policy verändern würde, indem diese Merkmale innerhalb einer gesampelten Gruppe verglichen werden. Trajektorien, die neuartige Gradientenrichtungen einführen, erhalten einen begrenzten multiplikativen Reward-Scaler, während redundante oder "off-manifold"-Updates abgeschwächt werden. Dies ergibt ein selbstreferenzielles Explorationssignal, das natürlich mit PPO-ähnlicher Stabilität und KL-Kontrolle kompatibel ist. In Mathematik- und allgemeinen Reasoning-Benchmarks (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) mit Qwen3-Basismodellen (1.7B und 4B) verbessert G2RL konsistent pass@1, maj@16 und pass@k im Vergleich zu entropiebasiertem GRPO und Methoden mit externen Embeddings. Eine Analyse der induzierten Geometrie zeigt, dass G2RL die Exploration in deutlich orthogonalere und oft entgegengesetzte Gradientenrichtungen ausdehnt, bei gleichzeitiger Wahrung der semantischen Kohärenz. Dies offenbart, dass der eigene Update-Raum einer Policy eine wesentlich treuere und effektivere Grundlage für die Steuerung der Exploration im Reinforcement Learning großer Sprachmodelle bietet.
English
Reinforcement learning has become essential for strengthening the reasoning abilities of large language models, yet current exploration mechanisms remain fundamentally misaligned with how these models actually learn. Entropy bonuses and external semantic comparators encourage surface level variation but offer no guarantee that sampled trajectories differ in the update directions that shape optimization. We propose G2RL, a gradient guided reinforcement learning framework in which exploration is driven not by external heuristics but by the model own first order update geometry. For each response, G2RL constructs a sequence level feature from the model final layer sensitivity, obtainable at negligible cost from a standard forward pass, and measures how each trajectory would reshape the policy by comparing these features within a sampled group. Trajectories that introduce novel gradient directions receive a bounded multiplicative reward scaler, while redundant or off manifold updates are deemphasized, yielding a self referential exploration signal that is naturally aligned with PPO style stability and KL control. Across math and general reasoning benchmarks (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) on Qwen3 base 1.7B and 4B models, G2RL consistently improves pass@1, maj@16, and pass@k over entropy based GRPO and external embedding methods. Analyzing the induced geometry, we find that G2RL expands exploration into substantially more orthogonal and often opposing gradient directions while maintaining semantic coherence, revealing that a policy own update space provides a far more faithful and effective basis for guiding exploration in large language model reinforcement learning.