Muestrear Más para Pensar Menos: Optimización de Políticas con Filtrado Grupal para un Razonamiento Conciso

Resumen

Los grandes modelos de lenguaje entrenados con aprendizaje por refuerzo utilizando recompensas verificables tienden a intercambiar precisión por longitud, inflando el tamaño de las respuestas para lograr mejoras en la precisión. Si bien respuestas más largas pueden estar justificadas para problemas más difíciles, muchos tokens son simplemente "relleno": texto repetitivo y verboso que no aporta un avance real. Introducimos GFPO (Optimización de Política Filtrada por Grupos), que controla esta explosión de longitud muestreando grupos más grandes por problema durante el entrenamiento y filtrando las respuestas para entrenar en función de dos métricas clave: (1) la longitud de la respuesta y (2) la eficiencia de tokens: la relación de recompensa por token. Al muestrear más durante el entrenamiento, enseñamos a los modelos a pensar menos durante la inferencia. En el modelo Phi-4-reasoning, GFPO reduce la inflación de longitud de GRPO en un 46-71% en benchmarks desafiantes de STEM y programación (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) mientras mantiene la precisión. Optimizar la recompensa por token aumenta aún más las reducciones en la inflación de longitud a un 71-85%. También proponemos GFPO de Dificultad Adaptativa, que asigna dinámicamente más recursos de entrenamiento a problemas más difíciles basándose en estimaciones de dificultad en tiempo real, mejorando el equilibrio entre eficiencia computacional y precisión, especialmente en preguntas difíciles. GFPO demuestra que un mayor cómputo durante el entrenamiento se traduce directamente en un menor cómputo durante las pruebas, un intercambio simple pero efectivo para un razonamiento eficiente.

English

Large language models trained with reinforcement learning with verifiable rewards tend to trade accuracy for length--inflating response lengths to achieve gains in accuracy. While longer answers may be warranted for harder problems, many tokens are merely "filler": repetitive, verbose text that makes no real progress. We introduce GFPO (Group Filtered Policy Optimization), which curbs this length explosion by sampling larger groups per problem during training and filtering responses to train on based on two key metrics: (1) response length and (2) token efficiency: reward per token ratio. By sampling more at training time, we teach models to think less at inference time. On the Phi-4-reasoning model, GFPO cuts GRPO's length inflation by 46-71% across challenging STEM and coding benchmarks (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) while maintaining accuracy. Optimizing for reward per token further increases reductions in length inflation to 71-85%. We also propose Adaptive Difficulty GFPO, which dynamically allocates more training resources to harder problems based on real-time difficulty estimates, improving the balance between computational efficiency and accuracy especially on difficult questions. GFPO demonstrates that increased training-time compute directly translates to reduced test-time compute--a simple yet effective trade-off for efficient reasoning.

Muestrear Más para Pensar Menos: Optimización de Políticas con Filtrado Grupal para un Razonamiento Conciso

Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning

Resumen

Support