ChatPaper.aiChatPaper

Les LLM peuvent-ils guider leur propre exploration ? Apprentissage par renforcement à guidage par gradient pour le raisonnement des LLM

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

December 17, 2025
papers.authors: Zhenwen Liang, Sidi Lu, Wenhao Yu, Kishan Panaganti, Yujun Zhou, Haitao Mi, Dong Yu
cs.AI

papers.abstract

L'apprentissage par renforcement est devenu essentiel pour renforcer les capacités de raisonnement des grands modèles de langage, mais les mécanismes d'exploration actuels restent fondamentalement inadaptés à la manière dont ces modèles apprennent réellement. Les primes d'entropie et les comparateurs sémantiques externes encouragent une variation superficielle, mais n'offrent aucune garantie que les trajectoires échantillonnées diffèrent dans les directions de mise à jour qui façonnent l'optimisation. Nous proposons G2RL, un cadre d'apprentissage par renforcement à guidage par gradient dans lequel l'exploration est pilotée non pas par des heuristiques externes, mais par la géométrie de mise à jour du premier ordre du modèle lui-même. Pour chaque réponse, G2RL construit une caractéristique au niveau de la séquence à partir de la sensibilité de la couche finale du modèle, obtenable à un coût négligeable lors d'une passe avant standard, et mesure comment chaque trajectoire remodelerait la politique en comparant ces caractéristiques au sein d'un groupe échantillonné. Les trajectoires qui introduisent des directions de gradient nouvelles reçoivent un facteur de récompense multiplicatif borné, tandis que les mises à jour redondantes ou hors variété sont atténuées, produisant un signal d'exploration autoréférentiel naturellement aligné avec la stabilité de type PPO et le contrôle KL. Sur des benchmarks de raisonnement mathématique et général (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) avec les modèles de base Qwen3 1.7B et 4B, G2RL améliore constamment les métriques pass@1, maj@16 et pass@k par rapport aux méthodes GRPO basées sur l'entropie et celles utilisant des embeddings externes. En analysant la géométrie induite, nous constatons que G2RL étend l'exploration vers des directions de gradient substantiellement plus orthogonales et souvent opposées, tout en maintenant la cohérence sémantique, révélant que l'espace de mise à jour propre à une politique constitue une base bien plus fidèle et efficace pour guider l'exploration dans l'apprentissage par renforcement des grands modèles de langage.
English
Reinforcement learning has become essential for strengthening the reasoning abilities of large language models, yet current exploration mechanisms remain fundamentally misaligned with how these models actually learn. Entropy bonuses and external semantic comparators encourage surface level variation but offer no guarantee that sampled trajectories differ in the update directions that shape optimization. We propose G2RL, a gradient guided reinforcement learning framework in which exploration is driven not by external heuristics but by the model own first order update geometry. For each response, G2RL constructs a sequence level feature from the model final layer sensitivity, obtainable at negligible cost from a standard forward pass, and measures how each trajectory would reshape the policy by comparing these features within a sampled group. Trajectories that introduce novel gradient directions receive a bounded multiplicative reward scaler, while redundant or off manifold updates are deemphasized, yielding a self referential exploration signal that is naturally aligned with PPO style stability and KL control. Across math and general reasoning benchmarks (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) on Qwen3 base 1.7B and 4B models, G2RL consistently improves pass@1, maj@16, and pass@k over entropy based GRPO and external embedding methods. Analyzing the induced geometry, we find that G2RL expands exploration into substantially more orthogonal and often opposing gradient directions while maintaining semantic coherence, revealing that a policy own update space provides a far more faithful and effective basis for guiding exploration in large language model reinforcement learning.
PDF132December 19, 2025