Sample More to Think Less: Groepsgefilterde Policy Optimalisatie voor Beknopt Redeneren

Samenvatting

Grote taalmodellen die zijn getraind met reinforcement learning met verifieerbare beloningen hebben de neiging om nauwkeurigheid in te ruilen voor lengte—ze blazen de lengte van antwoorden op om winst in nauwkeurigheid te behalen. Hoewel langere antwoorden gerechtvaardigd kunnen zijn voor moeilijkere problemen, zijn veel tokens slechts "vulling": repetitieve, omslachtige tekst die geen echte vooruitgang boekt. We introduceren GFPO (Group Filtered Policy Optimization), dat deze lengte-explosie beteugelt door tijdens de training grotere groepen per probleem te bemonsteren en antwoorden te filteren om op te trainen op basis van twee belangrijke metrieken: (1) antwoordlengte en (2) token-efficiëntie: de beloning per token-ratio. Door tijdens de training meer te bemonsteren, leren we modellen om tijdens inferentie minder te denken. Op het Phi-4-reasoning-model reduceert GFPO de lengte-inflatie van GRPO met 46-71% over uitdagende STEM- en coderingsbenchmarks (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) terwijl de nauwkeurigheid behouden blijft. Optimaliseren voor beloning per token verhoogt de reductie in lengte-inflatie verder tot 71-85%. We stellen ook Adaptive Difficulty GFPO voor, dat dynamisch meer trainingsbronnen toewijst aan moeilijkere problemen op basis van realtime moeilijkheidsinschattingen, waardoor de balans tussen computationele efficiëntie en nauwkeurigheid verbetert, vooral bij moeilijke vragen. GFPO laat zien dat verhoogde rekentijd tijdens de training direct vertaalt naar verminderde rekentijd tijdens de test—een eenvoudig maar effectief compromis voor efficiënt redeneren.

English

Large language models trained with reinforcement learning with verifiable rewards tend to trade accuracy for length--inflating response lengths to achieve gains in accuracy. While longer answers may be warranted for harder problems, many tokens are merely "filler": repetitive, verbose text that makes no real progress. We introduce GFPO (Group Filtered Policy Optimization), which curbs this length explosion by sampling larger groups per problem during training and filtering responses to train on based on two key metrics: (1) response length and (2) token efficiency: reward per token ratio. By sampling more at training time, we teach models to think less at inference time. On the Phi-4-reasoning model, GFPO cuts GRPO's length inflation by 46-71% across challenging STEM and coding benchmarks (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) while maintaining accuracy. Optimizing for reward per token further increases reductions in length inflation to 71-85%. We also propose Adaptive Difficulty GFPO, which dynamically allocates more training resources to harder problems based on real-time difficulty estimates, improving the balance between computational efficiency and accuracy especially on difficult questions. GFPO demonstrates that increased training-time compute directly translates to reduced test-time compute--a simple yet effective trade-off for efficient reasoning.

Sample More to Think Less: Groepsgefilterde Policy Optimalisatie voor Beknopt Redeneren

Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning

Samenvatting

Support