SEED-GRPO:不確実性を考慮した政策最適化のためのセマンティックエントロピー強化型GRPO
SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization
May 18, 2025
著者: Minghan Chen, Guikun Chen, Wenguan Wang, Yi Yang
cs.AI
要旨
大規模言語モデル(LLM)は、入力プロンプト(質問)に対して異なるレベルの確信度を示す。一部のプロンプトは一貫性があり、意味的に類似した回答を生成するが、他のプロンプトは多様または矛盾する出力を生み出す。この変動は、LLMが入力プロンプトに対する不確実性を反映しており、モデルが特定の問題をどの程度確信を持って理解しているかを示す信号である。しかし、従来のGroup Relative Policy Optimization(GRPO)は、ポリシー更新中にすべてのプロンプトを均等に扱い、モデルの知識境界に関するこの重要な情報を無視している。この制限を解決するため、我々はSEED-GRPO(Semantic Entropy EnhanceD GRPO)を提案する。SEED-GRPOは、入力プロンプトの意味的エントロピーに対するLLMの不確実性を明示的に測定する。意味的エントロピーは、与えられたプロンプトに対して生成された複数の回答の意味の多様性を測定し、これを使用してポリシー更新の大きさを調整する。この不確実性を考慮したトレーニングメカニズムにより、質問の不確実性に基づいてポリシー更新の大きさを動的に調整することが可能となる。これにより、不確実性の高い質問に対してはより保守的な更新を行いながら、確信度の高い質問に対しては元の学習信号を維持することができる。5つの数学的推論ベンチマーク(AIME24 56.7、AMC 68.7、MATH 83.4、Minerva 34.2、およびOlympiadBench 48.0)での実験結果は、SEED-GRPOが平均精度において新たな最先端の性能を達成し、不確実性を考慮したポリシー最適化の有効性を検証している。
English
Large language models (LLMs) exhibit varying levels of confidence across
input prompts (questions): some lead to consistent, semantically similar
answers, while others yield diverse or contradictory outputs. This variation
reflects LLM's uncertainty about the input prompt, a signal of how confidently
the model understands a given problem. However, vanilla Group Relative Policy
Optimization (GRPO) treats all prompts equally during policy updates, ignoring
this important information about the model's knowledge boundaries. To address
this limitation, we propose SEED-GRPO (Semantic Entropy EnhanceD GRPO), which
explicitly measures LLMs' uncertainty of the input prompts semantic entropy.
Semantic entropy measures the diversity of meaning in multiple generated
answers given a prompt and uses this to modulate the magnitude of policy
updates. This uncertainty-aware training mechanism enables dynamic adjustment
of policy update magnitudes based on question uncertainty. It allows more
conservative updates on high-uncertainty questions while maintaining the
original learning signal on confident ones. Experimental results on five
mathematical reasoning benchmarks (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva
34.2, and OlympiadBench 48.0) demonstrate that SEED-GRPO achieves new
state-of-the-art performance in average accuracy, validating the effectiveness
of uncertainty-aware policy optimization.Summary
AI-Generated Summary