Refuerzo Conjunto de la Diversidad y la Calidad en las Generaciones de Modelos de Lenguaje
Jointly Reinforcing Diversity and Quality in Language Model Generations
September 2, 2025
Autores: Tianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang
cs.AI
Resumen
El entrenamiento posterior de modelos de lenguaje de gran escala (LM, por sus siglas en inglés) a menudo prioriza la precisión y la utilidad a expensas de la diversidad. Esto genera una tensión: aunque el entrenamiento posterior mejora la calidad de las respuestas, también afila las distribuciones de salida y reduce el rango de ideas, limitando la utilidad de los LM en tareas creativas y exploratorias como la lluvia de ideas, la narración de historias o la resolución de problemas. Abordamos este desafío con el Aprendizaje por Refuerzo Consciente de la Diversidad (DARLING, por sus siglas en inglés), un marco que optimiza conjuntamente la calidad de las respuestas y la diversidad semántica. En su núcleo, DARLING introduce una función de partición aprendida para medir la diversidad más allá de las variaciones léxicas superficiales. Esta señal de diversidad se combina luego con una recompensa de calidad durante el aprendizaje por refuerzo en línea, incentivando a los modelos a generar salidas que sean tanto de alta calidad como distintas. Los experimentos realizados en múltiples familias y tamaños de modelos muestran que DARLING se generaliza a dos regímenes: tareas no verificables (seguimiento de instrucciones y escritura creativa) y tareas verificables (matemáticas competitivas). En cinco puntos de referencia del primer escenario, DARLING supera consistentemente los baselines de aprendizaje por refuerzo centrados únicamente en la calidad, produciendo salidas que son simultáneamente de mayor calidad y novedad. En el segundo escenario, DARLING logra un mayor pass@1 (calidad de la solución) y pass@k (variedad de soluciones). Lo más notable es que la optimización explícita de la diversidad cataliza la exploración en el aprendizaje por refuerzo en línea, lo que se manifiesta en respuestas de mayor calidad.
English
Post-training of Large Language Models (LMs) often prioritizes accuracy and
helpfulness at the expense of diversity. This creates a tension: while
post-training improves response quality, it also sharpens output distributions
and reduces the range of ideas, limiting the usefulness of LMs in creative and
exploratory tasks such as brainstorming, storytelling, or problem solving. We
address this challenge with Diversity-Aware Reinforcement Learning (DARLING), a
framework that jointly optimizes for response quality and semantic diversity.
At its core, DARLING introduces a learned partition function to measure
diversity beyond surface-level lexical variations. This diversity signal is
then combined with a quality reward during online reinforcement learning,
encouraging models to generate outputs that are both high-quality and distinct.
Experiments across multiple model families and sizes show that DARLING
generalizes to two regimes: non-verifiable tasks (instruction following and
creative writing) and verifiable tasks (competition math). On five benchmarks
in the first setting, DARLING consistently outperforms quality-only RL
baselines, producing outputs that are simultaneously of higher quality and
novelty. In the second setting, DARLING achieves higher pass@1 (solution
quality) and pass@k (solution variety). Most strikingly, explicitly optimizing
for diversity catalyzes exploration in online RL, which manifests itself as
higher-quality responses.