Campiona di Più per Pensare Meno: Ottimizzazione delle Politiche con Filtro di Gruppo per un Ragionamento Conciso
Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
August 13, 2025
Autori: Vaishnavi Shrivastava, Ahmed Awadallah, Vidhisha Balachandran, Shivam Garg, Harkirat Behl, Dimitris Papailiopoulos
cs.AI
Abstract
I grandi modelli linguistici addestrati con apprendimento per rinforzo utilizzando ricompense verificabili tendono a sacrificare la precisione per la lunghezza, gonfiando la lunghezza delle risposte per ottenere miglioramenti in termini di accuratezza. Sebbene risposte più lunghe possano essere giustificate per problemi più difficili, molti token sono semplicemente "riempitivi": testo ripetitivo e verboso che non apporta alcun reale progresso. Introduciamo GFPO (Group Filtered Policy Optimization), che limita questa esplosione di lunghezza campionando gruppi più ampi per problema durante l'addestramento e filtrando le risposte su cui addestrare in base a due metriche chiave: (1) la lunghezza della risposta e (2) l'efficienza dei token: il rapporto ricompensa per token. Campionando di più durante l'addestramento, insegniamo ai modelli a pensare meno durante l'inferenza. Sul modello Phi-4-reasoning, GFPO riduce l'inflazione di lunghezza di GRPO del 46-71% su benchmark impegnativi di STEM e programmazione (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) mantenendo l'accuratezza. Ottimizzare per la ricompensa per token aumenta ulteriormente le riduzioni dell'inflazione di lunghezza al 71-85%. Proponiamo inoltre GFPO a Difficoltà Adattiva, che assegna dinamicamente più risorse di addestramento ai problemi più difficili in base a stime di difficoltà in tempo reale, migliorando l'equilibrio tra efficienza computazionale e accuratezza, specialmente su domande difficili. GFPO dimostra che un aumento del calcolo durante l'addestramento si traduce direttamente in una riduzione del calcolo durante il test—un compromesso semplice ma efficace per un ragionamento efficiente.
English
Large language models trained with reinforcement learning with verifiable
rewards tend to trade accuracy for length--inflating response lengths to
achieve gains in accuracy. While longer answers may be warranted for harder
problems, many tokens are merely "filler": repetitive, verbose text that makes
no real progress. We introduce GFPO (Group Filtered Policy Optimization), which
curbs this length explosion by sampling larger groups per problem during
training and filtering responses to train on based on two key metrics: (1)
response length and (2) token efficiency: reward per token ratio. By sampling
more at training time, we teach models to think less at inference time. On the
Phi-4-reasoning model, GFPO cuts GRPO's length inflation by 46-71% across
challenging STEM and coding benchmarks (AIME 24/25, GPQA, Omni-MATH,
LiveCodeBench) while maintaining accuracy. Optimizing for reward per token
further increases reductions in length inflation to 71-85%. We also propose
Adaptive Difficulty GFPO, which dynamically allocates more training resources
to harder problems based on real-time difficulty estimates, improving the
balance between computational efficiency and accuracy especially on difficult
questions. GFPO demonstrates that increased training-time compute directly
translates to reduced test-time compute--a simple yet effective trade-off for
efficient reasoning.