ChatPaper.aiChatPaper

LLM은 자기 주도적 탐색을 안내할 수 있을까? LLM 추론을 위한 그래디언트 기반 강화 학습

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

December 17, 2025
저자: Zhenwen Liang, Sidi Lu, Wenhao Yu, Kishan Panaganti, Yujun Zhou, Haitao Mi, Dong Yu
cs.AI

초록

강화 학습은 대규모 언어 모델의 추론 능력 강화에 필수적인 도구가 되었으나, 현재의 탐색 메커니즘은 이러한 모델의 실제 학습 방식과 근본적으로 불일치합니다. 엔트로피 보너스와 외부 의미론적 비교자들은 표면적 변이를 장려하지만, 최적화를 형성하는 업데이트 방향에서 샘플링된 경로가 실제로 차이를 보장하지는 않습니다. 우리는 탐색이 외부 휴리스틱이 아닌 모델 자체의 1차 업데이트 기하학에 의해 주도되는 그래디언트 기반 강화 학습 프레임워크인 G2RL을 제안합니다. G2RL은 각 응답에 대해 모델의 최종 레이어 민감도(표준 순전파만으로도 극히 낮은 비용으로 획득 가능)에서 시퀀스 수준 특징을 구성하고, 샘플링된 그룹 내에서 이러한 특징들을 비교하여 각 경로가 정책을 어떻게 재구성할지 측정합니다. 새로운 그래디언트 방향을 도입하는 경로에는 제한된 승수 보조 인자가 부여되는 반면, 중복되거나 매니폴드를 벗어난 업데이트는 약화되어 PPO 스타일 안정성 및 KL 제어와 자연스럽게 조화되는 자기 참조적 탐색 신호를 생성합니다. Qwen3 base 1.7B 및 4B 모델을 활용한 수학 및 일반 추론 벤치마크(MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro)에서 G2RL은 엔트로피 기반 GRPO 및 외부 임베딩 방법 대비 pass@1, maj@16, pass@k를 지속적으로 향상시켰습니다. 유도된 기하학을 분석한 결과, G2RL은 의미론적 일관성을 유지하면서도 훨씬 더 직교적이고 종종 상반된 그래디언트 방향으로 탐색을 확장하며, 정책 자체의 업데이트 공간이 대규모 언어 모델 강화 학습에서 탐색을 안내하는 훨씬 더 정확하고 효과적인 기반을 제공함을 확인했습니다.
English
Reinforcement learning has become essential for strengthening the reasoning abilities of large language models, yet current exploration mechanisms remain fundamentally misaligned with how these models actually learn. Entropy bonuses and external semantic comparators encourage surface level variation but offer no guarantee that sampled trajectories differ in the update directions that shape optimization. We propose G2RL, a gradient guided reinforcement learning framework in which exploration is driven not by external heuristics but by the model own first order update geometry. For each response, G2RL constructs a sequence level feature from the model final layer sensitivity, obtainable at negligible cost from a standard forward pass, and measures how each trajectory would reshape the policy by comparing these features within a sampled group. Trajectories that introduce novel gradient directions receive a bounded multiplicative reward scaler, while redundant or off manifold updates are deemphasized, yielding a self referential exploration signal that is naturally aligned with PPO style stability and KL control. Across math and general reasoning benchmarks (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) on Qwen3 base 1.7B and 4B models, G2RL consistently improves pass@1, maj@16, and pass@k over entropy based GRPO and external embedding methods. Analyzing the induced geometry, we find that G2RL expands exploration into substantially more orthogonal and often opposing gradient directions while maintaining semantic coherence, revealing that a policy own update space provides a far more faithful and effective basis for guiding exploration in large language model reinforcement learning.
PDF132December 19, 2025