サンプルを増やして思考を減らす:簡潔な推論のためのグループフィルタリング政策最適化
Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
August 13, 2025
著者: Vaishnavi Shrivastava, Ahmed Awadallah, Vidhisha Balachandran, Shivam Garg, Harkirat Behl, Dimitris Papailiopoulos
cs.AI
要旨
検証可能な報酬を用いた強化学習で訓練された大規模言語モデルは、精度を長さと引き換えにする傾向があります。つまり、精度を向上させるために応答の長さを膨らませるのです。難しい問題に対しては長い回答が必要な場合もありますが、多くのトークンは単なる「埋め草」であり、繰り返しや冗長なテキストで実質的な進展がありません。本論文では、GFPO(Group Filtered Policy Optimization)を導入し、訓練中に問題ごとに大きなグループをサンプリングし、応答を2つの主要な指標に基づいてフィルタリングすることで、この長さの爆発を抑制します。その指標とは、(1) 応答の長さと、(2) トークン効率(トークンあたりの報酬比)です。訓練時に多くのサンプリングを行うことで、推論時にモデルが考える量を減らすことを教えます。Phi-4-reasoningモデルにおいて、GFPOはGRPOの長さの膨張を46-71%削減し、STEMやコーディングのベンチマーク(AIME 24/25、GPQA、Omni-MATH、LiveCodeBench)で精度を維持します。トークンあたりの報酬を最適化することで、長さの膨張の削減率はさらに71-85%に向上します。また、Adaptive Difficulty GFPOを提案し、リアルタイムの難易度推定に基づいて難しい問題により多くの訓練リソースを動的に割り当てることで、特に難しい質問において計算効率と精度のバランスを改善します。GFPOは、訓練時の計算量の増加が直接的にテスト時の計算量の削減につながることを示しており、効率的な推論のためのシンプルかつ効果的なトレードオフを実現します。
English
Large language models trained with reinforcement learning with verifiable
rewards tend to trade accuracy for length--inflating response lengths to
achieve gains in accuracy. While longer answers may be warranted for harder
problems, many tokens are merely "filler": repetitive, verbose text that makes
no real progress. We introduce GFPO (Group Filtered Policy Optimization), which
curbs this length explosion by sampling larger groups per problem during
training and filtering responses to train on based on two key metrics: (1)
response length and (2) token efficiency: reward per token ratio. By sampling
more at training time, we teach models to think less at inference time. On the
Phi-4-reasoning model, GFPO cuts GRPO's length inflation by 46-71% across
challenging STEM and coding benchmarks (AIME 24/25, GPQA, Omni-MATH,
LiveCodeBench) while maintaining accuracy. Optimizing for reward per token
further increases reductions in length inflation to 71-85%. We also propose
Adaptive Difficulty GFPO, which dynamically allocates more training resources
to harder problems based on real-time difficulty estimates, improving the
balance between computational efficiency and accuracy especially on difficult
questions. GFPO demonstrates that increased training-time compute directly
translates to reduced test-time compute--a simple yet effective trade-off for
efficient reasoning.