SEED-GRPO: GRPO Aprimorado com Entropia Semântica para Otimização de Políticas com Consciência de Incerteza
SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization
May 18, 2025
Autores: Minghan Chen, Guikun Chen, Wenguan Wang, Yi Yang
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) exibem níveis variados de confiança em relação a diferentes prompts de entrada (perguntas): alguns levam a respostas consistentes e semanticamente semelhantes, enquanto outros produzem saídas diversas ou contraditórias. Essa variação reflete a incerteza do LLM sobre o prompt de entrada, um sinal de quão confiantemente o modelo compreende um determinado problema. No entanto, o Group Relative Policy Optimization (GRPO) padrão trata todos os prompts igualmente durante as atualizações da política, ignorando essa informação importante sobre os limites do conhecimento do modelo. Para abordar essa limitação, propomos o SEED-GRPO (Semantic Entropy EnhanceD GRPO), que mede explicitamente a incerteza dos LLMs em relação à entropia semântica dos prompts de entrada. A entropia semântica mede a diversidade de significado em múltiplas respostas geradas para um prompt e usa isso para modular a magnitude das atualizações da política. Esse mecanismo de treinamento consciente da incerteza permite o ajuste dinâmico da magnitude das atualizações da política com base na incerteza da pergunta. Ele permite atualizações mais conservadoras em perguntas de alta incerteza, mantendo o sinal de aprendizado original em perguntas confiantes. Resultados experimentais em cinco benchmarks de raciocínio matemático (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2 e OlympiadBench 48.0) demonstram que o SEED-GRPO alcança um novo estado da arte em precisão média, validando a eficácia da otimização de política consciente da incerteza.
English
Large language models (LLMs) exhibit varying levels of confidence across
input prompts (questions): some lead to consistent, semantically similar
answers, while others yield diverse or contradictory outputs. This variation
reflects LLM's uncertainty about the input prompt, a signal of how confidently
the model understands a given problem. However, vanilla Group Relative Policy
Optimization (GRPO) treats all prompts equally during policy updates, ignoring
this important information about the model's knowledge boundaries. To address
this limitation, we propose SEED-GRPO (Semantic Entropy EnhanceD GRPO), which
explicitly measures LLMs' uncertainty of the input prompts semantic entropy.
Semantic entropy measures the diversity of meaning in multiple generated
answers given a prompt and uses this to modulate the magnitude of policy
updates. This uncertainty-aware training mechanism enables dynamic adjustment
of policy update magnitudes based on question uncertainty. It allows more
conservative updates on high-uncertainty questions while maintaining the
original learning signal on confident ones. Experimental results on five
mathematical reasoning benchmarks (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva
34.2, and OlympiadBench 48.0) demonstrate that SEED-GRPO achieves new
state-of-the-art performance in average accuracy, validating the effectiveness
of uncertainty-aware policy optimization.