Rafforzamento Congiunto della Diversità e della Qualità nelle Generazioni dei Modelli Linguistici
Jointly Reinforcing Diversity and Quality in Language Model Generations
September 2, 2025
Autori: Tianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang
cs.AI
Abstract
Il post-addestramento dei Large Language Models (LM) spesso privilegia l'accuratezza e l'utilità a scapito della diversità. Ciò crea una tensione: se da un lato il post-addestramento migliora la qualità delle risposte, dall'altro affina le distribuzioni di output e riduce la gamma di idee, limitando l'utilità dei LM in compiti creativi ed esplorativi come il brainstorming, la narrazione o la risoluzione di problemi. Affrontiamo questa sfida con il Diversity-Aware Reinforcement Learning (DARLING), un framework che ottimizza congiuntamente la qualità delle risposte e la diversità semantica. Al suo interno, DARLING introduce una funzione di partizione appresa per misurare la diversità oltre le variazioni lessicali superficiali. Questo segnale di diversità viene poi combinato con una ricompensa di qualità durante il reinforcement learning online, incoraggiando i modelli a generare output che siano sia di alta qualità che distinti. Esperimenti condotti su diverse famiglie e dimensioni di modelli dimostrano che DARLING si generalizza a due regimi: compiti non verificabili (seguire istruzioni e scrittura creativa) e compiti verificabili (matematica competitiva). Su cinque benchmark nel primo contesto, DARLING supera costantemente i baseline di RL focalizzati solo sulla qualità, producendo output che sono simultaneamente di qualità superiore e più innovativi. Nel secondo contesto, DARLING raggiunge punteggi più alti in pass@1 (qualità della soluzione) e pass@k (varietà delle soluzioni). Ancora più significativamente, l'ottimizzazione esplicita per la diversità catalizza l'esplorazione nel RL online, che si manifesta in risposte di qualità superiore.
English
Post-training of Large Language Models (LMs) often prioritizes accuracy and
helpfulness at the expense of diversity. This creates a tension: while
post-training improves response quality, it also sharpens output distributions
and reduces the range of ideas, limiting the usefulness of LMs in creative and
exploratory tasks such as brainstorming, storytelling, or problem solving. We
address this challenge with Diversity-Aware Reinforcement Learning (DARLING), a
framework that jointly optimizes for response quality and semantic diversity.
At its core, DARLING introduces a learned partition function to measure
diversity beyond surface-level lexical variations. This diversity signal is
then combined with a quality reward during online reinforcement learning,
encouraging models to generate outputs that are both high-quality and distinct.
Experiments across multiple model families and sizes show that DARLING
generalizes to two regimes: non-verifiable tasks (instruction following and
creative writing) and verifiable tasks (competition math). On five benchmarks
in the first setting, DARLING consistently outperforms quality-only RL
baselines, producing outputs that are simultaneously of higher quality and
novelty. In the second setting, DARLING achieves higher pass@1 (solution
quality) and pass@k (solution variety). Most strikingly, explicitly optimizing
for diversity catalyzes exploration in online RL, which manifests itself as
higher-quality responses.