Os LLMs Podem Guiar Sua Própria Exploração? Aprendizado por Reforço Guiado por Gradiente para Raciocínio em LLMs
Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning
December 17, 2025
Autores: Zhenwen Liang, Sidi Lu, Wenhao Yu, Kishan Panaganti, Yujun Zhou, Haitao Mi, Dong Yu
cs.AI
Resumo
O aprendizado por reforço tornou-se essencial para fortalecer as capacidades de raciocínio de grandes modelos de linguagem, porém os mecanismos atuais de exploração permanecem fundamentalmente desalinhados com a forma como esses modelos realmente aprendem. Bônus de entropia e comparadores semânticos externos incentivam variação superficial, mas não oferecem garantia de que as trajetórias amostradas difiram nas direções de atualização que moldam a otimização. Propomos o G2RL, uma estrutura de aprendizado por reforço guiada por gradiente na qual a exploração é dirigida não por heurísticas externas, mas pela geometria de atualização de primeira ordem do próprio modelo. Para cada resposta, o G2RL constrói uma característica a nível de sequência a partir da sensibilidade da camada final do modelo, obtida a um custo insignificante a partir de uma passagem direta padrão, e mede como cada trajetória remodelaria a política comparando essas características dentro de um grupo amostrado. Trajetórias que introduzem direções de gradiente novas recebem um escalonador de recompensa multiplicativo limitado, enquanto atualizações redundantes ou fora da variedade são desenfatizadas, produzindo um sinal de exploração autorreferencial que está naturalmente alinhado com a estabilidade estilo PPO e o controle KL. Em benchmarks de matemática e raciocínio geral (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) nos modelos base Qwen3 1.7B e 4B, o G2RL melhora consistentemente pass@1, maj@16 e pass@k em relação ao GRPO baseado em entropia e a métodos de incorporação externa. Analisando a geometria induzida, descobrimos que o G2RL expande a exploração para direções de gradiente substancialmente mais ortogonais e frequentemente opostas, mantendo a coerência semântica, revelando que o próprio espaço de atualização de uma política fornece uma base muito mais fiel e eficaz para guiar a exploração no aprendizado por reforço de grandes modelos de linguagem.
English
Reinforcement learning has become essential for strengthening the reasoning abilities of large language models, yet current exploration mechanisms remain fundamentally misaligned with how these models actually learn. Entropy bonuses and external semantic comparators encourage surface level variation but offer no guarantee that sampled trajectories differ in the update directions that shape optimization. We propose G2RL, a gradient guided reinforcement learning framework in which exploration is driven not by external heuristics but by the model own first order update geometry. For each response, G2RL constructs a sequence level feature from the model final layer sensitivity, obtainable at negligible cost from a standard forward pass, and measures how each trajectory would reshape the policy by comparing these features within a sampled group. Trajectories that introduce novel gradient directions receive a bounded multiplicative reward scaler, while redundant or off manifold updates are deemphasized, yielding a self referential exploration signal that is naturally aligned with PPO style stability and KL control. Across math and general reasoning benchmarks (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) on Qwen3 base 1.7B and 4B models, G2RL consistently improves pass@1, maj@16, and pass@k over entropy based GRPO and external embedding methods. Analyzing the induced geometry, we find that G2RL expands exploration into substantially more orthogonal and often opposing gradient directions while maintaining semantic coherence, revealing that a policy own update space provides a far more faithful and effective basis for guiding exploration in large language model reinforcement learning.