Выбор расхождения: упущенный ключ к смягчению коллапса разнообразия в обучении с подкреплением с верифицируемой наградой
The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward
September 9, 2025
Авторы: Long Li, Jiaran Hao, Jason Klein Liu, Zhijian Zhou, Xiaoyu Tan, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi
cs.AI
Аннотация
Центральный парадокс при тонкой настройке больших языковых моделей (LLM) с использованием обучения с подкреплением с верифицируемой наградой (RLVR) заключается в частом ухудшении производительности при многократных попытках (Pass@k), несмотря на улучшение точности при однократной попытке (Pass@1). Это часто сопровождается катастрофическим забыванием, когда модели теряют ранее приобретенные навыки. Хотя было предложено множество методов, выбор и функция члена расхождения остаются удивительно малоизученными как активное решение. Мы утверждаем, что стандартные цели RLVR — как те, которые используют модо-ориентированную обратную KL-дивергенцию, так и те, которые полностью отказываются от члена расхождения — лишены важного механизма для сохранения знаний. Обратная KL-дивергенция активно ускоряет этот процесс, сужая политику, а ее отсутствие не обеспечивает защиты от отклонения модели от своей разнообразной базы знаний. Мы предлагаем фундаментальный сдвиг в подходе: использование самого члена расхождения в качестве решения. Наша структура, Diversity-Preserving Hybrid RL (DPH-RL), использует массо-покрывающие f-дивергенции (такие как прямая KL-дивергенция и JS-дивергенция) в качестве механизма повторения. Постоянно ссылаясь на начальную политику, этот подход заставляет модель поддерживать широкий охват решений. Многочисленные эксперименты на задачах генерации математических выражений и SQL-запросов демонстрируют, что DPH-RL не только устраняет ухудшение Pass@k, но и улучшает как Pass@1, так и Pass@k как внутри, так и за пределами домена. Кроме того, DPH-RL более эффективен в обучении, поскольку вычисляет f-дивергенцию с использованием функций генератора, требуя только выборки из начальной политики и не нуждаясь в онлайн-референсной модели. Наша работа подчеркивает важный, но упускаемый из виду аспект улучшения RLVR, демонстрируя, что правильный выбор меры расхождения является мощным инструментом для создания более общих и разнообразных моделей рассуждений.
English
A central paradox in fine-tuning Large Language Models (LLMs) with
Reinforcement Learning with Verifiable Reward (RLVR) is the frequent
degradation of multi-attempt performance (Pass@k) despite improvements in
single-attempt accuracy (Pass@1). This is often accompanied by catastrophic
forgetting, where models lose previously acquired skills. While various methods
have been proposed, the choice and function of the divergence term have been
surprisingly unexamined as a proactive solution. We argue that standard RLVR
objectives -- both those using the mode-seeking reverse KL-divergence and those
forgoing a divergence term entirely -- lack a crucial mechanism for knowledge
retention. The reverse-KL actively accelerates this decay by narrowing the
policy, while its absence provides no safeguard against the model drifting from
its diverse knowledge base. We propose a fundamental shift in perspective:
using the divergence term itself as the solution. Our framework,
Diversity-Preserving Hybrid RL (DPH-RL), leverages mass-covering f-divergences
(like forward-KL and JS-divergence) to function as a rehearsal mechanism. By
continuously referencing the initial policy, this approach forces the model to
maintain broad solution coverage. Extensive experiments on math and SQL
generation demonstrate that DPH-RL not only resolves the Pass@k degradation but
improves both Pass@1 and Pass@k in- and out-of-domain. Additionally, DPH-RL is
more training-efficient because it computes f-divergence using generator
functions, requiring only sampling from the initial policy and no online
reference model. Our work highlights a crucial, overlooked axis for improving
RLVR, demonstrating that the proper selection of a divergence measure is a
powerful tool for building more general and diverse reasoning models.