Campiona di Più per Pensare Meno: Ottimizzazione delle Politiche con Filtro di Gruppo per un Ragionamento Conciso

Abstract

I grandi modelli linguistici addestrati con apprendimento per rinforzo utilizzando ricompense verificabili tendono a sacrificare la precisione per la lunghezza, gonfiando la lunghezza delle risposte per ottenere miglioramenti in termini di accuratezza. Sebbene risposte più lunghe possano essere giustificate per problemi più difficili, molti token sono semplicemente "riempitivi": testo ripetitivo e verboso che non apporta alcun reale progresso. Introduciamo GFPO (Group Filtered Policy Optimization), che limita questa esplosione di lunghezza campionando gruppi più ampi per problema durante l'addestramento e filtrando le risposte su cui addestrare in base a due metriche chiave: (1) la lunghezza della risposta e (2) l'efficienza dei token: il rapporto ricompensa per token. Campionando di più durante l'addestramento, insegniamo ai modelli a pensare meno durante l'inferenza. Sul modello Phi-4-reasoning, GFPO riduce l'inflazione di lunghezza di GRPO del 46-71% su benchmark impegnativi di STEM e programmazione (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) mantenendo l'accuratezza. Ottimizzare per la ricompensa per token aumenta ulteriormente le riduzioni dell'inflazione di lunghezza al 71-85%. Proponiamo inoltre GFPO a Difficoltà Adattiva, che assegna dinamicamente più risorse di addestramento ai problemi più difficili in base a stime di difficoltà in tempo reale, migliorando l'equilibrio tra efficienza computazionale e accuratezza, specialmente su domande difficili. GFPO dimostra che un aumento del calcolo durante l'addestramento si traduce direttamente in una riduzione del calcolo durante il test—un compromesso semplice ma efficace per un ragionamento efficiente.

English

Large language models trained with reinforcement learning with verifiable rewards tend to trade accuracy for length--inflating response lengths to achieve gains in accuracy. While longer answers may be warranted for harder problems, many tokens are merely "filler": repetitive, verbose text that makes no real progress. We introduce GFPO (Group Filtered Policy Optimization), which curbs this length explosion by sampling larger groups per problem during training and filtering responses to train on based on two key metrics: (1) response length and (2) token efficiency: reward per token ratio. By sampling more at training time, we teach models to think less at inference time. On the Phi-4-reasoning model, GFPO cuts GRPO's length inflation by 46-71% across challenging STEM and coding benchmarks (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) while maintaining accuracy. Optimizing for reward per token further increases reductions in length inflation to 71-85%. We also propose Adaptive Difficulty GFPO, which dynamically allocates more training resources to harder problems based on real-time difficulty estimates, improving the balance between computational efficiency and accuracy especially on difficult questions. GFPO demonstrates that increased training-time compute directly translates to reduced test-time compute--a simple yet effective trade-off for efficient reasoning.

Campiona di Più per Pensare Meno: Ottimizzazione delle Politiche con Filtro di Gruppo per un Ragionamento Conciso

Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning

Abstract

Support