Échantillonner plus pour penser moins : Optimisation de politique par filtrage de groupe pour un raisonnement concis
Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
August 13, 2025
papers.authors: Vaishnavi Shrivastava, Ahmed Awadallah, Vidhisha Balachandran, Shivam Garg, Harkirat Behl, Dimitris Papailiopoulos
cs.AI
papers.abstract
Les grands modèles de langage entraînés par apprentissage par renforcement avec des récompenses vérifiables ont tendance à sacrifier la précision au profit de la longueur, gonflant la taille des réponses pour obtenir des gains en précision. Bien que des réponses plus longues puissent être justifiées pour des problèmes plus difficiles, de nombreux tokens ne sont que du "remplissage" : un texte répétitif et verbeux qui ne fait pas avancer la résolution. Nous introduisons GFPO (Group Filtered Policy Optimization), qui limite cette explosion de longueur en échantillonnant des groupes plus importants par problème pendant l'entraînement et en filtrant les réponses à entraîner selon deux métriques clés : (1) la longueur de la réponse et (2) l'efficacité des tokens : le ratio de récompense par token. En échantillonnant davantage pendant l'entraînement, nous apprenons aux modèles à réfléchir moins au moment de l'inférence. Sur le modèle Phi-4-reasoning, GFPO réduit l'inflation de longueur de GRPO de 46 à 71 % sur des benchmarks exigeants en STEM et en codage (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) tout en maintenant la précision. L'optimisation pour la récompense par token augmente encore les réductions de l'inflation de longueur à 71-85 %. Nous proposons également GFPO à Difficulté Adaptative, qui alloue dynamiquement plus de ressources d'entraînement aux problèmes plus difficiles en fonction d'estimations en temps réel de leur complexité, améliorant l'équilibre entre efficacité computationnelle et précision, en particulier sur les questions difficiles. GFPO démontre qu'une augmentation du calcul pendant l'entraînement se traduit directement par une réduction du calcul pendant les tests—un compromis simple mais efficace pour un raisonnement efficace.
English
Large language models trained with reinforcement learning with verifiable
rewards tend to trade accuracy for length--inflating response lengths to
achieve gains in accuracy. While longer answers may be warranted for harder
problems, many tokens are merely "filler": repetitive, verbose text that makes
no real progress. We introduce GFPO (Group Filtered Policy Optimization), which
curbs this length explosion by sampling larger groups per problem during
training and filtering responses to train on based on two key metrics: (1)
response length and (2) token efficiency: reward per token ratio. By sampling
more at training time, we teach models to think less at inference time. On the
Phi-4-reasoning model, GFPO cuts GRPO's length inflation by 46-71% across
challenging STEM and coding benchmarks (AIME 24/25, GPQA, Omni-MATH,
LiveCodeBench) while maintaining accuracy. Optimizing for reward per token
further increases reductions in length inflation to 71-85%. We also propose
Adaptive Difficulty GFPO, which dynamically allocates more training resources
to harder problems based on real-time difficulty estimates, improving the
balance between computational efficiency and accuracy especially on difficult
questions. GFPO demonstrates that increased training-time compute directly
translates to reduced test-time compute--a simple yet effective trade-off for
efficient reasoning.