ChatPaper.aiChatPaper

Образец "Меньше для большего мышления": Оптимизация политики с групповой фильтрацией для лаконичного рассуждения

Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning

August 13, 2025
Авторы: Vaishnavi Shrivastava, Ahmed Awadallah, Vidhisha Balachandran, Shivam Garg, Harkirat Behl, Dimitris Papailiopoulos
cs.AI

Аннотация

Крупные языковые модели, обученные с использованием обучения с подкреплением на основе проверяемых вознаграждений, склонны жертвовать точностью ради увеличения длины ответов — они увеличивают объем текста, чтобы добиться повышения точности. Хотя более длинные ответы могут быть оправданы для сложных задач, многие токены являются просто "заполнением": повторяющимся, многословным текстом, который не приносит реального прогресса. Мы представляем GFPO (Group Filtered Policy Optimization), который ограничивает это взрывное увеличение длины путем выборки более крупных групп на одну задачу во время обучения и фильтрации ответов для обучения на основе двух ключевых метрик: (1) длины ответа и (2) эффективности токенов: соотношения вознаграждения на токен. Увеличивая объем выборки во время обучения, мы учим модели меньше "думать" во время вывода. На модели Phi-4-reasoning GFPO сокращает увеличение длины, вызванное GRPO, на 46–71% на сложных тестах STEM и программирования (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench), сохраняя при этом точность. Оптимизация по вознаграждению на токен дополнительно увеличивает сокращение увеличения длины до 71–85%. Мы также предлагаем Adaptive Difficulty GFPO, который динамически распределяет больше ресурсов обучения на более сложные задачи на основе оценок сложности в реальном времени, улучшая баланс между вычислительной эффективностью и точностью, особенно на сложных вопросах. GFPO демонстрирует, что увеличение вычислительных ресурсов во время обучения напрямую приводит к сокращению вычислительных затрат во время тестирования — простой, но эффективный компромисс для эффективного рассуждения.
English
Large language models trained with reinforcement learning with verifiable rewards tend to trade accuracy for length--inflating response lengths to achieve gains in accuracy. While longer answers may be warranted for harder problems, many tokens are merely "filler": repetitive, verbose text that makes no real progress. We introduce GFPO (Group Filtered Policy Optimization), which curbs this length explosion by sampling larger groups per problem during training and filtering responses to train on based on two key metrics: (1) response length and (2) token efficiency: reward per token ratio. By sampling more at training time, we teach models to think less at inference time. On the Phi-4-reasoning model, GFPO cuts GRPO's length inflation by 46-71% across challenging STEM and coding benchmarks (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) while maintaining accuracy. Optimizing for reward per token further increases reductions in length inflation to 71-85%. We also propose Adaptive Difficulty GFPO, which dynamically allocates more training resources to harder problems based on real-time difficulty estimates, improving the balance between computational efficiency and accuracy especially on difficult questions. GFPO demonstrates that increased training-time compute directly translates to reduced test-time compute--a simple yet effective trade-off for efficient reasoning.
PDF32August 14, 2025