Sample More to Think Less: Gruppenfilter-Optimierung der Strategie für präzises Schließen
Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
August 13, 2025
papers.authors: Vaishnavi Shrivastava, Ahmed Awadallah, Vidhisha Balachandran, Shivam Garg, Harkirat Behl, Dimitris Papailiopoulos
cs.AI
papers.abstract
Große Sprachmodelle, die mit bestärkendem Lernen und überprüfbaren Belohnungen trainiert werden, neigen dazu, Genauigkeit gegen Länge einzutauschen – sie blähen die Antwortlängen auf, um Genauigkeitsgewinne zu erzielen. Während längere Antworten bei schwierigeren Problemen gerechtfertigt sein mögen, sind viele Token lediglich „Füllmaterial“: sich wiederholender, umständlicher Text, der keinen wirklichen Fortschritt bringt. Wir stellen GFPO (Group Filtered Policy Optimization) vor, das diese Längenexplosion eindämmt, indem während des Trainings größere Gruppen pro Problem abgetastet und Antworten basierend auf zwei Schlüsselmetriken gefiltert werden, um darauf zu trainieren: (1) Antwortlänge und (2) Token-Effizienz: das Verhältnis von Belohnung pro Token. Durch das Abtasten von mehr Daten während des Trainings lehren wir Modelle, bei der Inferenz weniger zu denken. Beim Phi-4-Reasoning-Modell reduziert GFPO die Längeninflation von GRPO um 46-71 % über anspruchsvolle STEM- und Coding-Benchmarks (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) hinweg, während die Genauigkeit erhalten bleibt. Die Optimierung für Belohnung pro Token steigert die Reduktion der Längeninflation weiter auf 71-85 %. Wir schlagen auch Adaptive Difficulty GFPO vor, das dynamisch mehr Trainingsressourcen für schwierigere Probleme basierend auf Echtzeit-Schwierigkeitsschätzungen zuweist und so das Gleichgewicht zwischen Recheneffizienz und Genauigkeit insbesondere bei schwierigen Fragen verbessert. GFPO zeigt, dass erhöhter Rechenaufwand während des Trainings direkt zu reduziertem Rechenaufwand während des Tests führt – ein einfacher, aber effektiver Kompromiss für effizientes Schließen.
English
Large language models trained with reinforcement learning with verifiable
rewards tend to trade accuracy for length--inflating response lengths to
achieve gains in accuracy. While longer answers may be warranted for harder
problems, many tokens are merely "filler": repetitive, verbose text that makes
no real progress. We introduce GFPO (Group Filtered Policy Optimization), which
curbs this length explosion by sampling larger groups per problem during
training and filtering responses to train on based on two key metrics: (1)
response length and (2) token efficiency: reward per token ratio. By sampling
more at training time, we teach models to think less at inference time. On the
Phi-4-reasoning model, GFPO cuts GRPO's length inflation by 46-71% across
challenging STEM and coding benchmarks (AIME 24/25, GPQA, Omni-MATH,
LiveCodeBench) while maintaining accuracy. Optimizing for reward per token
further increases reductions in length inflation to 71-85%. We also propose
Adaptive Difficulty GFPO, which dynamically allocates more training resources
to harder problems based on real-time difficulty estimates, improving the
balance between computational efficiency and accuracy especially on difficult
questions. GFPO demonstrates that increased training-time compute directly
translates to reduced test-time compute--a simple yet effective trade-off for
efficient reasoning.