Renforcement Conjoint de la Diversité et de la Qualité dans les Générations de Modèles de Langage
Jointly Reinforcing Diversity and Quality in Language Model Generations
September 2, 2025
papers.authors: Tianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang
cs.AI
papers.abstract
Le post-entraînement des grands modèles de langage (LM) privilégie souvent la précision et l'utilité au détriment de la diversité. Cela crée une tension : bien que le post-entraînement améliore la qualité des réponses, il aiguise également les distributions de sortie et réduit l'éventail des idées, limitant ainsi l'utilité des LM dans des tâches créatives et exploratoires telles que le brainstorming, la narration ou la résolution de problèmes. Nous abordons ce défi avec le **Reinforcement Learning Conscient de la Diversité (DARLING)**, un cadre qui optimise conjointement la qualité des réponses et la diversité sémantique. Au cœur de DARLING se trouve une fonction de partition apprise pour mesurer la diversité au-delà des variations lexicales superficielles. Ce signal de diversité est ensuite combiné avec une récompense de qualité lors de l'apprentissage par renforcement en ligne, encourageant les modèles à générer des sorties à la fois de haute qualité et distinctes. Les expériences menées sur plusieurs familles et tailles de modèles montrent que DARLING se généralise à deux régimes : les tâches non vérifiables (suivi d'instructions et écriture créative) et les tâches vérifiables (mathématiques de compétition). Sur cinq benchmarks dans le premier cadre, DARLING surpasse systématiquement les bases de référence en apprentissage par renforcement axé uniquement sur la qualité, produisant des sorties à la fois de meilleure qualité et plus novatrices. Dans le second cadre, DARLING atteint des scores plus élevés en pass@1 (qualité de la solution) et pass@k (variété des solutions). Plus frappant encore, l'optimisation explicite de la diversité catalyse l'exploration dans l'apprentissage par renforcement en ligne, ce qui se manifeste par des réponses de meilleure qualité.
English
Post-training of Large Language Models (LMs) often prioritizes accuracy and
helpfulness at the expense of diversity. This creates a tension: while
post-training improves response quality, it also sharpens output distributions
and reduces the range of ideas, limiting the usefulness of LMs in creative and
exploratory tasks such as brainstorming, storytelling, or problem solving. We
address this challenge with Diversity-Aware Reinforcement Learning (DARLING), a
framework that jointly optimizes for response quality and semantic diversity.
At its core, DARLING introduces a learned partition function to measure
diversity beyond surface-level lexical variations. This diversity signal is
then combined with a quality reward during online reinforcement learning,
encouraging models to generate outputs that are both high-quality and distinct.
Experiments across multiple model families and sizes show that DARLING
generalizes to two regimes: non-verifiable tasks (instruction following and
creative writing) and verifiable tasks (competition math). On five benchmarks
in the first setting, DARLING consistently outperforms quality-only RL
baselines, producing outputs that are simultaneously of higher quality and
novelty. In the second setting, DARLING achieves higher pass@1 (solution
quality) and pass@k (solution variety). Most strikingly, explicitly optimizing
for diversity catalyzes exploration in online RL, which manifests itself as
higher-quality responses.