ChatPaper.aiChatPaper

Ни один запрос не останется без внимания: использование запросов с нулевой дисперсией в обучении с подкреплением для языковых моделей через формирование преимуществ с управлением энтропией

No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

September 26, 2025
Авторы: Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang
cs.AI

Аннотация

Обучение с подкреплением с верифицируемыми наградами (RLVR) представляет собой мощный фреймворк для улучшения способностей к рассуждению у крупных языковых моделей (LLM). Однако текущие методы, такие как GRPO, полагаются исключительно на задачи, в которых ответы модели на один и тот же вход различаются по правильности, игнорируя те случаи, когда все ответы получают одинаковую награду — так называемые запросы с нулевой дисперсией. В данной работе мы утверждаем, что такие запросы не являются бесполезными, а, напротив, могут предоставлять ценные данные для оптимизации политики. С этой целью мы представляем обучение с подкреплением с запросами нулевой дисперсии (RL-ZVP) — новый алгоритм, который извлекает обучающие сигналы из таких запросов. RL-ZVP напрямую вознаграждает правильность и наказывает ошибки даже без контрастирования ответов, модулируя обратную связь с учетом характеристик на уровне токенов, чтобы сохранить информативные и тонкие сигналы. На шести бенчмарках математического рассуждения RL-ZVP демонстрирует значительные улучшения — до 8,61 балла в точности и 7,77 балла в проходном балле по сравнению с GRPO, при этом стабильно превосходя другие базовые методы, которые исключают запросы с нулевой дисперсией. Эти результаты подчеркивают неиспользованный потенциал обучения на основе запросов с нулевой дисперсией в RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful framework for improving the reasoning abilities of Large Language Models (LLMs). However, current methods such as GRPO rely only on problems where the model responses to the same input differ in correctness, while ignoring those where all responses receive the same reward - so-called zero-variance prompts. In this work, we argue that such prompts are not useless but can, in fact, provide meaningful feedback for policy optimization. To this end, we introduce RL with Zero-Variance Prompts (RL-ZVP), a novel algorithm that extract learning signals from zero-variance prompts. RL-ZVP directly rewards correctness and penalizes errors even without contrasting responses, modulating feedback with token-level characteristics to preserve informative, nuanced signals. Across six math reasoning benchmarks, RL-ZVP achieves significant improvements of up to 8.61 points in accuracy and 7.77 points in pass rate over GRPO, while consistently outperforming other baselines that filter out zero-variance prompts. These results highlight the untapped potential of learning from zero-variance prompts in RLVR.
PDF302September 29, 2025