I modelli linguistici di grandi dimensioni possono guidare la propria esplorazione? Apprendimento per rinforzo con guida del gradiente per il ragionamento dei LLM
Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning
December 17, 2025
Autori: Zhenwen Liang, Sidi Lu, Wenhao Yu, Kishan Panaganti, Yujun Zhou, Haitao Mi, Dong Yu
cs.AI
Abstract
L'apprendimento per rinforzo è diventato essenziale per potenziare le capacità di ragionamento dei grandi modelli linguistici, tuttavia gli attuali meccanismi di esplorazione rimangono fondamentalmente disallineati rispetto a come questi modelli apprendono realmente. I bonus entropici e i comparatori semantici esterni incoraggiano una variazione superficiale ma non offrono alcuna garanzia che i percorsi campionati differiscano nelle direzioni di aggiornamento che plasmano l'ottimizzazione. Proponiamo G2RL, un framework di apprendimento per rinforzo guidato dal gradiente in cui l'esplorazione è guidata non da euristiche esterne, ma dalla geometria di aggiornamento del primo ordine del modello stesso. Per ogni risposta, G2RL costruisce una caratteristica a livello di sequenza dalla sensibilità dello strato finale del modello, ottenibile a costo trascurabile da un passaggio in avanti standard, e misura come ogni traiettoria ridisegnerebbe la policy confrontando queste caratteristiche all'interno di un gruppo campionato. I percorsi che introducono direzioni di gradiente nuove ricevono un moltiplicatore di ricompensa limitato, mentre gli aggiornamenti ridondanti o fuori dal manifold vengono sminuiti, producendo un segnale di esplorazione auto-referenziale che è naturalmente allineato con la stabilità di tipo PPO e il controllo KL. Su benchmark di matematica e ragionamento generale (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) sui modelli Qwen3 base da 1.7B e 4B, G2RL migliora costantemente le metriche pass@1, maj@16 e pass@k rispetto ai metodi GRPO basati sull'entropia e ai metodi basati su embedding esterni. Analizzando la geometria indotta, scopriamo che G2RL espande l'esplorazione in direzioni di gradiente sostanzialmente più ortogonali e spesso opposte, mantenendo al contempo la coerenza semantica, rivelando che lo spazio di aggiornamento intrinseco di una policy fornisce una base di gran lunga più fedele ed efficace per guidare l'esplorazione nell'apprendimento per rinforzo dei grandi modelli linguistici.
English
Reinforcement learning has become essential for strengthening the reasoning abilities of large language models, yet current exploration mechanisms remain fundamentally misaligned with how these models actually learn. Entropy bonuses and external semantic comparators encourage surface level variation but offer no guarantee that sampled trajectories differ in the update directions that shape optimization. We propose G2RL, a gradient guided reinforcement learning framework in which exploration is driven not by external heuristics but by the model own first order update geometry. For each response, G2RL constructs a sequence level feature from the model final layer sensitivity, obtainable at negligible cost from a standard forward pass, and measures how each trajectory would reshape the policy by comparing these features within a sampled group. Trajectories that introduce novel gradient directions receive a bounded multiplicative reward scaler, while redundant or off manifold updates are deemphasized, yielding a self referential exploration signal that is naturally aligned with PPO style stability and KL control. Across math and general reasoning benchmarks (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) on Qwen3 base 1.7B and 4B models, G2RL consistently improves pass@1, maj@16, and pass@k over entropy based GRPO and external embedding methods. Analyzing the induced geometry, we find that G2RL expands exploration into substantially more orthogonal and often opposing gradient directions while maintaining semantic coherence, revealing that a policy own update space provides a far more faithful and effective basis for guiding exploration in large language model reinforcement learning.