Amostre Mais para Pensar Menos: Otimização de Política com Filtragem em Grupo para Raciocínio Conciso

Resumo

Grandes modelos de linguagem treinados com aprendizado por reforço com recompensas verificáveis tendem a trocar precisão por extensão—inflacionando o comprimento das respostas para obter ganhos em precisão. Embora respostas mais longas possam ser justificadas para problemas mais difíceis, muitos tokens são meramente "preenchimento": texto repetitivo e prolixo que não avança de fato a solução. Introduzimos o GFPO (Group Filtered Policy Optimization), que controla essa explosão de comprimento ao amostrar grupos maiores por problema durante o treinamento e filtrar as respostas para treinar com base em duas métricas-chave: (1) comprimento da resposta e (2) eficiência de tokens: razão de recompensa por token. Ao amostrar mais durante o treinamento, ensinamos os modelos a pensar menos no momento da inferência. No modelo Phi-4-reasoning, o GFPO reduz a inflação de comprimento do GRPO em 46-71% em benchmarks desafiadores de STEM e programação (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) enquanto mantém a precisão. Otimizar para recompensa por token aumenta ainda mais as reduções na inflação de comprimento para 71-85%. Também propomos o GFPO de Dificuldade Adaptativa, que aloca dinamicamente mais recursos de treinamento para problemas mais difíceis com base em estimativas de dificuldade em tempo real, melhorando o equilíbrio entre eficiência computacional e precisão, especialmente em questões difíceis. O GFPO demonstra que o aumento do tempo de computação no treinamento se traduz diretamente em redução do tempo de computação no teste—uma troca simples, mas eficaz, para raciocínio eficiente.

English

Large language models trained with reinforcement learning with verifiable rewards tend to trade accuracy for length--inflating response lengths to achieve gains in accuracy. While longer answers may be warranted for harder problems, many tokens are merely "filler": repetitive, verbose text that makes no real progress. We introduce GFPO (Group Filtered Policy Optimization), which curbs this length explosion by sampling larger groups per problem during training and filtering responses to train on based on two key metrics: (1) response length and (2) token efficiency: reward per token ratio. By sampling more at training time, we teach models to think less at inference time. On the Phi-4-reasoning model, GFPO cuts GRPO's length inflation by 46-71% across challenging STEM and coding benchmarks (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) while maintaining accuracy. Optimizing for reward per token further increases reductions in length inflation to 71-85%. We also propose Adaptive Difficulty GFPO, which dynamically allocates more training resources to harder problems based on real-time difficulty estimates, improving the balance between computational efficiency and accuracy especially on difficult questions. GFPO demonstrates that increased training-time compute directly translates to reduced test-time compute--a simple yet effective trade-off for efficient reasoning.

Amostre Mais para Pensar Menos: Otimização de Política com Filtragem em Grupo para Raciocínio Conciso

Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning

Resumo

Support