Совместное усиление разнообразия и качества в генерациях языковых моделей
Jointly Reinforcing Diversity and Quality in Language Model Generations
September 2, 2025
Авторы: Tianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang
cs.AI
Аннотация
Посттренировка крупных языковых моделей (LM) часто фокусируется на точности и полезности в ущерб разнообразию. Это создает противоречие: хотя посттренировка улучшает качество ответов, она также сужает распределение выходных данных и сокращает диапазон идей, ограничивая полезность LM в творческих и исследовательских задачах, таких как мозговой штурм, создание историй или решение проблем. Мы решаем эту проблему с помощью фреймворка Diversity-Aware Reinforcement Learning (DARLING), который совместно оптимизирует качество ответов и семантическое разнообразие. В основе DARLING лежит введение обученной функции разделения для измерения разнообразия, выходящего за рамки поверхностных лексических вариаций. Этот сигнал разнообразия затем комбинируется с наградой за качество в процессе онлайн-обучения с подкреплением, побуждая модели генерировать выходные данные, которые одновременно являются высококачественными и уникальными. Эксперименты на множестве семейств моделей и их размеров показывают, что DARLING обобщается на два режима: задачи, не поддающиеся проверке (следование инструкциям и творческое письмо), и задачи, поддающиеся проверке (соревновательная математика). На пяти тестах в первом сценарии DARLING стабильно превосходит базовые методы обучения с подкреплением, ориентированные только на качество, создавая выходные данные, которые одновременно обладают более высоким качеством и новизной. Во втором сценарии DARLING достигает более высоких показателей pass@1 (качество решения) и pass@k (разнообразие решений). Наиболее примечательно, что явная оптимизация на разнообразие стимулирует исследование в онлайн-обучении с подкреплением, что проявляется в более качественных ответах.
English
Post-training of Large Language Models (LMs) often prioritizes accuracy and
helpfulness at the expense of diversity. This creates a tension: while
post-training improves response quality, it also sharpens output distributions
and reduces the range of ideas, limiting the usefulness of LMs in creative and
exploratory tasks such as brainstorming, storytelling, or problem solving. We
address this challenge with Diversity-Aware Reinforcement Learning (DARLING), a
framework that jointly optimizes for response quality and semantic diversity.
At its core, DARLING introduces a learned partition function to measure
diversity beyond surface-level lexical variations. This diversity signal is
then combined with a quality reward during online reinforcement learning,
encouraging models to generate outputs that are both high-quality and distinct.
Experiments across multiple model families and sizes show that DARLING
generalizes to two regimes: non-verifiable tasks (instruction following and
creative writing) and verifiable tasks (competition math). On five benchmarks
in the first setting, DARLING consistently outperforms quality-only RL
baselines, producing outputs that are simultaneously of higher quality and
novelty. In the second setting, DARLING achieves higher pass@1 (solution
quality) and pass@k (solution variety). Most strikingly, explicitly optimizing
for diversity catalyzes exploration in online RL, which manifests itself as
higher-quality responses.