Reforçando Conjuntamente a Diversidade e a Qualidade nas Gerações de Modelos de Linguagem
Jointly Reinforcing Diversity and Quality in Language Model Generations
September 2, 2025
Autores: Tianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang
cs.AI
Resumo
O pós-treinamento de Modelos de Linguagem de Grande Escala (LMs) frequentemente prioriza precisão e utilidade em detrimento da diversidade. Isso cria uma tensão: embora o pós-treinamento melhore a qualidade das respostas, ele também afia as distribuições de saída e reduz a gama de ideias, limitando a utilidade dos LMs em tarefas criativas e exploratórias, como brainstorming, narrativa ou resolução de problemas. Abordamos esse desafio com o Aprendizado por Reforço Consciente da Diversidade (DARLING), um framework que otimiza conjuntamente a qualidade da resposta e a diversidade semântica. No cerne do DARLING, introduzimos uma função de partição aprendida para medir a diversidade além de variações lexicais superficiais. Esse sinal de diversidade é então combinado com uma recompensa de qualidade durante o aprendizado por reforço online, incentivando os modelos a gerar saídas que sejam tanto de alta qualidade quanto distintas. Experimentos em múltiplas famílias e tamanhos de modelos mostram que o DARLING generaliza para dois regimes: tarefas não verificáveis (seguimento de instruções e escrita criativa) e tarefas verificáveis (matemática competitiva). Em cinco benchmarks no primeiro cenário, o DARLING consistentemente supera baselines de RL focados apenas em qualidade, produzindo saídas que são simultaneamente de maior qualidade e novidade. No segundo cenário, o DARLING alcança maior pass@1 (qualidade da solução) e pass@k (variedade de soluções). Mais impressionantemente, otimizar explicitamente para diversidade catalisa a exploração no RL online, o que se manifesta como respostas de maior qualidade.
English
Post-training of Large Language Models (LMs) often prioritizes accuracy and
helpfulness at the expense of diversity. This creates a tension: while
post-training improves response quality, it also sharpens output distributions
and reduces the range of ideas, limiting the usefulness of LMs in creative and
exploratory tasks such as brainstorming, storytelling, or problem solving. We
address this challenge with Diversity-Aware Reinforcement Learning (DARLING), a
framework that jointly optimizes for response quality and semantic diversity.
At its core, DARLING introduces a learned partition function to measure
diversity beyond surface-level lexical variations. This diversity signal is
then combined with a quality reward during online reinforcement learning,
encouraging models to generate outputs that are both high-quality and distinct.
Experiments across multiple model families and sizes show that DARLING
generalizes to two regimes: non-verifiable tasks (instruction following and
creative writing) and verifiable tasks (competition math). On five benchmarks
in the first setting, DARLING consistently outperforms quality-only RL
baselines, producing outputs that are simultaneously of higher quality and
novelty. In the second setting, DARLING achieves higher pass@1 (solution
quality) and pass@k (solution variety). Most strikingly, explicitly optimizing
for diversity catalyzes exploration in online RL, which manifests itself as
higher-quality responses.