SEED-GRPO: GRPO Aprimorado com Entropia Semântica para Otimização de Políticas com Consciência de Incerteza

Resumo

Modelos de linguagem de grande escala (LLMs) exibem níveis variados de confiança em relação a diferentes prompts de entrada (perguntas): alguns levam a respostas consistentes e semanticamente semelhantes, enquanto outros produzem saídas diversas ou contraditórias. Essa variação reflete a incerteza do LLM sobre o prompt de entrada, um sinal de quão confiantemente o modelo compreende um determinado problema. No entanto, o Group Relative Policy Optimization (GRPO) padrão trata todos os prompts igualmente durante as atualizações da política, ignorando essa informação importante sobre os limites do conhecimento do modelo. Para abordar essa limitação, propomos o SEED-GRPO (Semantic Entropy EnhanceD GRPO), que mede explicitamente a incerteza dos LLMs em relação à entropia semântica dos prompts de entrada. A entropia semântica mede a diversidade de significado em múltiplas respostas geradas para um prompt e usa isso para modular a magnitude das atualizações da política. Esse mecanismo de treinamento consciente da incerteza permite o ajuste dinâmico da magnitude das atualizações da política com base na incerteza da pergunta. Ele permite atualizações mais conservadoras em perguntas de alta incerteza, mantendo o sinal de aprendizado original em perguntas confiantes. Resultados experimentais em cinco benchmarks de raciocínio matemático (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2 e OlympiadBench 48.0) demonstram que o SEED-GRPO alcança um novo estado da arte em precisão média, validando a eficácia da otimização de política consciente da incerteza.

English

Large language models (LLMs) exhibit varying levels of confidence across input prompts (questions): some lead to consistent, semantically similar answers, while others yield diverse or contradictory outputs. This variation reflects LLM's uncertainty about the input prompt, a signal of how confidently the model understands a given problem. However, vanilla Group Relative Policy Optimization (GRPO) treats all prompts equally during policy updates, ignoring this important information about the model's knowledge boundaries. To address this limitation, we propose SEED-GRPO (Semantic Entropy EnhanceD GRPO), which explicitly measures LLMs' uncertainty of the input prompts semantic entropy. Semantic entropy measures the diversity of meaning in multiple generated answers given a prompt and uses this to modulate the magnitude of policy updates. This uncertainty-aware training mechanism enables dynamic adjustment of policy update magnitudes based on question uncertainty. It allows more conservative updates on high-uncertainty questions while maintaining the original learning signal on confident ones. Experimental results on five mathematical reasoning benchmarks (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2, and OlympiadBench 48.0) demonstrate that SEED-GRPO achieves new state-of-the-art performance in average accuracy, validating the effectiveness of uncertainty-aware policy optimization.

SEED-GRPO: GRPO Aprimorado com Entropia Semântica para Otimização de Políticas com Consciência de Incerteza

SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization

Resumo

Support