**Могут ли языковые модели направлять собственное исследование? Градиентно-направленное обучение с подкреплением для рассуждений в LLM**
Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning
December 17, 2025
Авторы: Zhenwen Liang, Sidi Lu, Wenhao Yu, Kishan Panaganti, Yujun Zhou, Haitao Mi, Dong Yu
cs.AI
Аннотация
Подкрепляющее обучение стало ключевым инструментом для усиления способностей к рассуждению у больших языковых моделей, однако современные механизмы исследования фундаментально не согласованы с тем, как эти модели фактически обучаются. Бонусы за энтропию и внешние семантические компараторы поощряют поверхностное варьирование, но не гарантируют, что сэмплированные траектории будут различаться в направлениях обновления, формирующих оптимизацию. Мы предлагаем G2RL — градиентно-управляемый фреймворк подкрепляющего обучения, в котором исследование направляется не внешними эвристиками, а собственной геометрией обновления первого порядка модели. Для каждого ответа G2RL строит признак на уровне последовательности из чувствительности последнего слоя модели, получаемый с пренебрежимо малой стоимостью при стандартном прямом проходе, и измеряет, как каждая траектория повлияет на политику, сравнивая эти признаки внутри сэмплированной группы. Траектории, вносящие новые направления градиента, получают ограниченный мультипликативный множитель вознаграждения, в то время как избыточные или отклоняющиеся от многообразия обновления ослабляются, что создает самореферентный сигнал исследования, естественным образом согласованный со стабильностью в стиле PPO и KL-контролем. На наборах задач по математике и общим рассуждениям (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) для базовых моделей Qwen3 1.7B и 4B G2RL последовательно улучшает показатели pass@1, maj@16 и pass@k по сравнению с GRPO на основе энтропии и методами с внешними эмбеддингами. Анализируя индуцированную геометрию, мы обнаруживаем, что G2RL расширяет исследование в существенно более ортогональные и зачастую противоположные направления градиента, сохраняя семантическую связность, что демонстрирует: собственное пространство обновления политики предоставляет гораздо более достоверную и эффективную основу для направления исследования в подкрепляющем обучении больших языковых моделей.
English
Reinforcement learning has become essential for strengthening the reasoning abilities of large language models, yet current exploration mechanisms remain fundamentally misaligned with how these models actually learn. Entropy bonuses and external semantic comparators encourage surface level variation but offer no guarantee that sampled trajectories differ in the update directions that shape optimization. We propose G2RL, a gradient guided reinforcement learning framework in which exploration is driven not by external heuristics but by the model own first order update geometry. For each response, G2RL constructs a sequence level feature from the model final layer sensitivity, obtainable at negligible cost from a standard forward pass, and measures how each trajectory would reshape the policy by comparing these features within a sampled group. Trajectories that introduce novel gradient directions receive a bounded multiplicative reward scaler, while redundant or off manifold updates are deemphasized, yielding a self referential exploration signal that is naturally aligned with PPO style stability and KL control. Across math and general reasoning benchmarks (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) on Qwen3 base 1.7B and 4B models, G2RL consistently improves pass@1, maj@16, and pass@k over entropy based GRPO and external embedding methods. Analyzing the induced geometry, we find that G2RL expands exploration into substantially more orthogonal and often opposing gradient directions while maintaining semantic coherence, revealing that a policy own update space provides a far more faithful and effective basis for guiding exploration in large language model reinforcement learning.