¿Pueden los LLM guiar su propia exploración? Aprendizaje por refuerzo guiado por gradientes para el razonamiento de LLM
Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning
December 17, 2025
Autores: Zhenwen Liang, Sidi Lu, Wenhao Yu, Kishan Panaganti, Yujun Zhou, Haitao Mi, Dong Yu
cs.AI
Resumen
El aprendizaje por refuerzo se ha vuelto esencial para fortalecer las capacidades de razonamiento de los modelos de lenguaje grandes; sin embargo, los mecanismos actuales de exploración siguen estando fundamentalmente desalineados con la forma en que estos modelos realmente aprenden. Las bonificaciones de entropía y los comparadores semánticos externos fomentan una variación superficial, pero no ofrecen garantía alguna de que las trayectorias muestreadas difieran en las direcciones de actualización que moldean la optimización. Proponemos G2RL, un marco de aprendizaje por refuerzo guiado por gradientes en el que la exploración no se impulsa mediante heurísticas externas, sino por la geometría de actualización de primer orden del propio modelo. Para cada respuesta, G2RL construye una característica a nivel de secuencia a partir de la sensibilidad de la capa final del modelo, obtenible a un costo insignificante mediante un pase hacia adelante estándar, y mide cómo cada trayectoria remodelaría la política comparando estas características dentro de un grupo muestreado. Las trayectorias que introducen direcciones de gradiente novedosas reciben un escalador de recompensa multiplicativo acotado, mientras que las actualizaciones redundantes o fuera del manifold se atenúan, produciendo una señal de exploración autorreferencial que está naturalmente alineada con la estabilidad de estilo PPO y el control KL. En diversos benchmarks de razonamiento matemático y general (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) utilizando los modelos base Qwen3 de 1.7B y 4B, G2RL mejora consistentemente las métricas pass@1, maj@16 y pass@k en comparación con métodos GRPO basados en entropía y métodos de incrustación externa. Al analizar la geometría inducida, encontramos que G2RL expande la exploración hacia direcciones de gradiente sustancialmente más ortogonales y a menudo opuestas, manteniendo al mismo tiempo la coherencia semántica, lo que revela que el espacio de actualización de la propia política proporciona una base mucho más fiel y efectiva para guiar la exploración en el aprendizaje por refuerzo de modelos de lenguaje grandes.
English
Reinforcement learning has become essential for strengthening the reasoning abilities of large language models, yet current exploration mechanisms remain fundamentally misaligned with how these models actually learn. Entropy bonuses and external semantic comparators encourage surface level variation but offer no guarantee that sampled trajectories differ in the update directions that shape optimization. We propose G2RL, a gradient guided reinforcement learning framework in which exploration is driven not by external heuristics but by the model own first order update geometry. For each response, G2RL constructs a sequence level feature from the model final layer sensitivity, obtainable at negligible cost from a standard forward pass, and measures how each trajectory would reshape the policy by comparing these features within a sampled group. Trajectories that introduce novel gradient directions receive a bounded multiplicative reward scaler, while redundant or off manifold updates are deemphasized, yielding a self referential exploration signal that is naturally aligned with PPO style stability and KL control. Across math and general reasoning benchmarks (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) on Qwen3 base 1.7B and 4B models, G2RL consistently improves pass@1, maj@16, and pass@k over entropy based GRPO and external embedding methods. Analyzing the induced geometry, we find that G2RL expands exploration into substantially more orthogonal and often opposing gradient directions while maintaining semantic coherence, revealing that a policy own update space provides a far more faithful and effective basis for guiding exploration in large language model reinforcement learning.