Gemeinsame Stärkung von Diversität und Qualität in Sprachmodellgenerierungen
Jointly Reinforcing Diversity and Quality in Language Model Generations
September 2, 2025
papers.authors: Tianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang
cs.AI
papers.abstract
Das Nachträning großer Sprachmodelle (LMs) priorisiert oft Genauigkeit und Hilfsbereitschaft auf Kosten der Diversität. Dies erzeugt eine Spannung: Während das Nachträning die Antwortqualität verbessert, schärft es auch die Ausgabeverteilungen und reduziert die Bandbreite der Ideen, was die Nützlichkeit von LMs in kreativen und explorativen Aufgaben wie Brainstorming, Geschichtenerzählen oder Problemlösung einschränkt. Wir begegnen dieser Herausforderung mit Diversity-Aware Reinforcement Learning (DARLING), einem Framework, das gleichzeitig Antwortqualität und semantische Diversität optimiert. Im Kern führt DARLING eine gelernte Partitionierungsfunktion ein, um Diversität über oberflächliche lexikalische Variationen hinaus zu messen. Dieses Diversitätssignal wird dann mit einem Qualitätsbelohnungssignal während des Online-Reinforcement-Learnings kombiniert, wodurch Modelle dazu angeregt werden, Ausgaben zu generieren, die sowohl hochwertig als auch einzigartig sind. Experimente über mehrere Modellfamilien und -größen hinweg zeigen, dass DARLING zwei Regime verallgemeinert: nicht verifizierbare Aufgaben (Befolgen von Anweisungen und kreatives Schreiben) und verifizierbare Aufgaben (Wettbewerbsmathematik). Bei fünf Benchmarks im ersten Setting übertrifft DARLING durchgängig Qualitäts-only-RL-Baselines und erzeugt Ausgaben, die gleichzeitig von höherer Qualität und Neuartigkeit sind. Im zweiten Setting erreicht DARLING höhere Pass@1 (Lösungsqualität) und Pass@k (Lösungsvielfalt). Am auffälligsten ist, dass die explizite Optimierung für Diversität die Exploration im Online-RL katalysiert, was sich in höherwertigen Antworten manifestiert.
English
Post-training of Large Language Models (LMs) often prioritizes accuracy and
helpfulness at the expense of diversity. This creates a tension: while
post-training improves response quality, it also sharpens output distributions
and reduces the range of ideas, limiting the usefulness of LMs in creative and
exploratory tasks such as brainstorming, storytelling, or problem solving. We
address this challenge with Diversity-Aware Reinforcement Learning (DARLING), a
framework that jointly optimizes for response quality and semantic diversity.
At its core, DARLING introduces a learned partition function to measure
diversity beyond surface-level lexical variations. This diversity signal is
then combined with a quality reward during online reinforcement learning,
encouraging models to generate outputs that are both high-quality and distinct.
Experiments across multiple model families and sizes show that DARLING
generalizes to two regimes: non-verifiable tasks (instruction following and
creative writing) and verifiable tasks (competition math). On five benchmarks
in the first setting, DARLING consistently outperforms quality-only RL
baselines, producing outputs that are simultaneously of higher quality and
novelty. In the second setting, DARLING achieves higher pass@1 (solution
quality) and pass@k (solution variety). Most strikingly, explicitly optimizing
for diversity catalyzes exploration in online RL, which manifests itself as
higher-quality responses.