Gezamenlijk Diversiteit en Kwaliteit Versterken in Taalmodelgeneraties
Jointly Reinforcing Diversity and Quality in Language Model Generations
September 2, 2025
Auteurs: Tianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang
cs.AI
Samenvatting
Post-training van grote taalmmodellen (LMs) richt zich vaak op nauwkeurigheid en behulpzaamheid ten koste van diversiteit. Dit creëert een spanning: hoewel post-training de kwaliteit van antwoorden verbetert, verscherpt het ook de uitvoerdistributies en vermindert het het bereik van ideeën, wat de bruikbaarheid van LMs beperkt in creatieve en verkennende taken zoals brainstormen, verhalen vertellen of probleemoplossing. Wij pakken deze uitdaging aan met Diversity-Aware Reinforcement Learning (DARLING), een raamwerk dat gezamenlijk optimaliseert voor antwoordkwaliteit en semantische diversiteit. In de kern introduceert DARLING een geleerde partitiefunctie om diversiteit te meten die verder gaat dan oppervlakkige lexicale variaties. Dit diversiteitssignaal wordt vervolgens gecombineerd met een kwaliteitsbeloning tijdens online reinforcement learning, wat modellen aanmoedigt om uitvoer te genereren die zowel van hoge kwaliteit als onderscheidend zijn. Experimenten over meerdere modelfamilies en -groottes tonen aan dat DARLING generaliseert naar twee regimes: niet-verifieerbare taken (instructieopvolging en creatief schrijven) en verifieerbare taken (competitiewiskunde). Op vijf benchmarks in de eerste setting presteert DARLING consistent beter dan kwaliteitsgerichte RL-baselines, waarbij het uitvoer produceert die tegelijkertijd van hogere kwaliteit en nieuwigheid is. In de tweede setting behaalt DARLING hogere pass@1 (oplossingskwaliteit) en pass@k (oplossingsvariëteit). Het meest opvallend is dat het expliciet optimaliseren voor diversiteit exploratie in online RL katalyseert, wat zich manifesteert als antwoorden van hogere kwaliteit.
English
Post-training of Large Language Models (LMs) often prioritizes accuracy and
helpfulness at the expense of diversity. This creates a tension: while
post-training improves response quality, it also sharpens output distributions
and reduces the range of ideas, limiting the usefulness of LMs in creative and
exploratory tasks such as brainstorming, storytelling, or problem solving. We
address this challenge with Diversity-Aware Reinforcement Learning (DARLING), a
framework that jointly optimizes for response quality and semantic diversity.
At its core, DARLING introduces a learned partition function to measure
diversity beyond surface-level lexical variations. This diversity signal is
then combined with a quality reward during online reinforcement learning,
encouraging models to generate outputs that are both high-quality and distinct.
Experiments across multiple model families and sizes show that DARLING
generalizes to two regimes: non-verifiable tasks (instruction following and
creative writing) and verifiable tasks (competition math). On five benchmarks
in the first setting, DARLING consistently outperforms quality-only RL
baselines, producing outputs that are simultaneously of higher quality and
novelty. In the second setting, DARLING achieves higher pass@1 (solution
quality) and pass@k (solution variety). Most strikingly, explicitly optimizing
for diversity catalyzes exploration in online RL, which manifests itself as
higher-quality responses.