SEED-GRPO: 불확실성 인식 정책 최적화를 위한 의미론적 엔트로피 강화 GRPO
SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization
May 18, 2025
저자: Minghan Chen, Guikun Chen, Wenguan Wang, Yi Yang
cs.AI
초록
대규모 언어 모델(LLM)은 입력 프롬프트(질문)에 따라 다양한 수준의 확신을 보입니다: 어떤 프롬프트는 일관적이고 의미론적으로 유사한 답변을 생성하는 반면, 다른 프롬프트는 다양하거나 상반된 출력을 내놓습니다. 이러한 변동은 LLM이 입력 프롬프트에 대해 가지는 불확실성을 반영하며, 모델이 주어진 문제를 얼마나 확신적으로 이해하고 있는지를 나타내는 신호입니다. 그러나 기본적인 그룹 상대 정책 최적화(GRPO)는 정책 업데이트 과정에서 모든 프롬프트를 동등하게 취급하여 모델의 지식 경계에 대한 이러한 중요한 정보를 무시합니다. 이러한 한계를 해결하기 위해, 우리는 SEED-GRPO(의미론적 엔트로피 강화 GRPO)를 제안합니다. SEED-GRPO는 LLM의 입력 프롬프트에 대한 불확실성을 의미론적 엔트로피로 명시적으로 측정합니다. 의미론적 엔트로피는 주어진 프롬프트에 대해 생성된 여러 답변의 의미 다양성을 측정하고, 이를 정책 업데이트의 크기를 조절하는 데 사용합니다. 이 불확실성 인지 훈련 메커니즘은 질문의 불확실성에 기반하여 정책 업데이트 크기를 동적으로 조정할 수 있게 합니다. 이를 통해 높은 불확실성을 가진 질문에 대해서는 보수적인 업데이트를 수행하면서도, 확신이 있는 질문에 대해서는 원래의 학습 신호를 유지할 수 있습니다. 다섯 가지 수학적 추론 벤치마크(AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2, OlympiadBench 48.0)에서의 실험 결과는 SEED-GRPO가 평균 정확도에서 새로운 최첨단 성능을 달성함을 보여주며, 불확실성 인지 정책 최적화의 효과를 입증합니다.
English
Large language models (LLMs) exhibit varying levels of confidence across
input prompts (questions): some lead to consistent, semantically similar
answers, while others yield diverse or contradictory outputs. This variation
reflects LLM's uncertainty about the input prompt, a signal of how confidently
the model understands a given problem. However, vanilla Group Relative Policy
Optimization (GRPO) treats all prompts equally during policy updates, ignoring
this important information about the model's knowledge boundaries. To address
this limitation, we propose SEED-GRPO (Semantic Entropy EnhanceD GRPO), which
explicitly measures LLMs' uncertainty of the input prompts semantic entropy.
Semantic entropy measures the diversity of meaning in multiple generated
answers given a prompt and uses this to modulate the magnitude of policy
updates. This uncertainty-aware training mechanism enables dynamic adjustment
of policy update magnitudes based on question uncertainty. It allows more
conservative updates on high-uncertainty questions while maintaining the
original learning signal on confident ones. Experimental results on five
mathematical reasoning benchmarks (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva
34.2, and OlympiadBench 48.0) demonstrate that SEED-GRPO achieves new
state-of-the-art performance in average accuracy, validating the effectiveness
of uncertainty-aware policy optimization.Summary
AI-Generated Summary