ChatPaper.aiChatPaper

SEED-GRPO: Semantische Entropie Verbeterde GRPO voor Onzekerheidsbewust Beleidsoptimalisatie

SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization

May 18, 2025
Auteurs: Minghan Chen, Guikun Chen, Wenguan Wang, Yi Yang
cs.AI

Samenvatting

Grote taalmodellen (LLMs) vertonen verschillende niveaus van vertrouwen bij verschillende invoerprompts (vragen): sommige leiden tot consistente, semantisch vergelijkbare antwoorden, terwijl andere diverse of tegenstrijdige uitvoer opleveren. Deze variatie weerspiegelt de onzekerheid van het LLM over de invoerprompt, een signaal van hoe zeker het model een bepaald probleem begrijpt. Echter, de standaard Group Relative Policy Optimization (GRPO) behandelt alle prompts gelijk tijdens beleidsupdates, waarbij deze belangrijke informatie over de kennisgrenzen van het model wordt genegeerd. Om deze beperking aan te pakken, stellen we SEED-GRPO (Semantic Entropy EnhanceD GRPO) voor, dat expliciet de onzekerheid van LLMs over de semantische entropie van de invoerprompts meet. Semantische entropie meet de diversiteit van betekenis in meerdere gegenereerde antwoorden gegeven een prompt en gebruikt dit om de omvang van beleidsupdates te moduleren. Dit onzekerheidsbewuste trainingsmechanisme maakt dynamische aanpassing van de omvang van beleidsupdates mogelijk op basis van de onzekerheid van de vraag. Het maakt conservatievere updates mogelijk bij vragen met een hoge onzekerheid, terwijl het oorspronkelijke leersignaal behouden blijft bij vragen waar het model zeker van is. Experimentele resultaten op vijf wiskundige redeneerbenchmarks (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2, en OlympiadBench 48.0) tonen aan dat SEED-GRPO een nieuwe state-of-the-art prestaties bereikt in gemiddelde nauwkeurigheid, wat de effectiviteit van onzekerheidsbewuste beleidsoptimalisatie valideert.
English
Large language models (LLMs) exhibit varying levels of confidence across input prompts (questions): some lead to consistent, semantically similar answers, while others yield diverse or contradictory outputs. This variation reflects LLM's uncertainty about the input prompt, a signal of how confidently the model understands a given problem. However, vanilla Group Relative Policy Optimization (GRPO) treats all prompts equally during policy updates, ignoring this important information about the model's knowledge boundaries. To address this limitation, we propose SEED-GRPO (Semantic Entropy EnhanceD GRPO), which explicitly measures LLMs' uncertainty of the input prompts semantic entropy. Semantic entropy measures the diversity of meaning in multiple generated answers given a prompt and uses this to modulate the magnitude of policy updates. This uncertainty-aware training mechanism enables dynamic adjustment of policy update magnitudes based on question uncertainty. It allows more conservative updates on high-uncertainty questions while maintaining the original learning signal on confident ones. Experimental results on five mathematical reasoning benchmarks (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2, and OlympiadBench 48.0) demonstrate that SEED-GRPO achieves new state-of-the-art performance in average accuracy, validating the effectiveness of uncertainty-aware policy optimization.

Summary

AI-Generated Summary

PDF153May 20, 2025