Sample More to Think Less: Groepsgefilterde Policy Optimalisatie voor Beknopt Redeneren
Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
August 13, 2025
Auteurs: Vaishnavi Shrivastava, Ahmed Awadallah, Vidhisha Balachandran, Shivam Garg, Harkirat Behl, Dimitris Papailiopoulos
cs.AI
Samenvatting
Grote taalmodellen die zijn getraind met reinforcement learning met verifieerbare beloningen hebben de neiging om nauwkeurigheid in te ruilen voor lengte—ze blazen de lengte van antwoorden op om winst in nauwkeurigheid te behalen. Hoewel langere antwoorden gerechtvaardigd kunnen zijn voor moeilijkere problemen, zijn veel tokens slechts "vulling": repetitieve, omslachtige tekst die geen echte vooruitgang boekt. We introduceren GFPO (Group Filtered Policy Optimization), dat deze lengte-explosie beteugelt door tijdens de training grotere groepen per probleem te bemonsteren en antwoorden te filteren om op te trainen op basis van twee belangrijke metrieken: (1) antwoordlengte en (2) token-efficiëntie: de beloning per token-ratio. Door tijdens de training meer te bemonsteren, leren we modellen om tijdens inferentie minder te denken. Op het Phi-4-reasoning-model reduceert GFPO de lengte-inflatie van GRPO met 46-71% over uitdagende STEM- en coderingsbenchmarks (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) terwijl de nauwkeurigheid behouden blijft. Optimaliseren voor beloning per token verhoogt de reductie in lengte-inflatie verder tot 71-85%. We stellen ook Adaptive Difficulty GFPO voor, dat dynamisch meer trainingsbronnen toewijst aan moeilijkere problemen op basis van realtime moeilijkheidsinschattingen, waardoor de balans tussen computationele efficiëntie en nauwkeurigheid verbetert, vooral bij moeilijke vragen. GFPO laat zien dat verhoogde rekentijd tijdens de training direct vertaalt naar verminderde rekentijd tijdens de test—een eenvoudig maar effectief compromis voor efficiënt redeneren.
English
Large language models trained with reinforcement learning with verifiable
rewards tend to trade accuracy for length--inflating response lengths to
achieve gains in accuracy. While longer answers may be warranted for harder
problems, many tokens are merely "filler": repetitive, verbose text that makes
no real progress. We introduce GFPO (Group Filtered Policy Optimization), which
curbs this length explosion by sampling larger groups per problem during
training and filtering responses to train on based on two key metrics: (1)
response length and (2) token efficiency: reward per token ratio. By sampling
more at training time, we teach models to think less at inference time. On the
Phi-4-reasoning model, GFPO cuts GRPO's length inflation by 46-71% across
challenging STEM and coding benchmarks (AIME 24/25, GPQA, Omni-MATH,
LiveCodeBench) while maintaining accuracy. Optimizing for reward per token
further increases reductions in length inflation to 71-85%. We also propose
Adaptive Difficulty GFPO, which dynamically allocates more training resources
to harder problems based on real-time difficulty estimates, improving the
balance between computational efficiency and accuracy especially on difficult
questions. GFPO demonstrates that increased training-time compute directly
translates to reduced test-time compute--a simple yet effective trade-off for
efficient reasoning.