ChatPaper.aiChatPaper

언어 모델 생성에서 다양성과 품질의 공동 강화

Jointly Reinforcing Diversity and Quality in Language Model Generations

September 2, 2025
저자: Tianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang
cs.AI

초록

대규모 언어 모델(LMs)의 사후 훈련은 종종 정확성과 도움성을 우선시함으로써 다양성을 희생시킨다. 이는 다음과 같은 긴장을 초래한다: 사후 훈련이 응답 품질을 개선하는 동시에 출력 분포를 더욱 예리하게 만들고 아이디어의 범위를 줄여, 브레인스토밍, 스토리텔링 또는 문제 해결과 같은 창의적이고 탐구적인 작업에서 LMs의 유용성을 제한한다. 우리는 이러한 문제를 해결하기 위해 응답 품질과 의미적 다양성을 동시에 최적화하는 Diversity-Aware Reinforcement Learning (DARLING) 프레임워크를 제안한다. DARLING의 핵심은 표면적인 어휘적 변이를 넘어 다양성을 측정하기 위해 학습된 분할 함수를 도입한다. 이 다양성 신호는 온라인 강화 학습 동안 품질 보상과 결합되어, 모델이 고품질이면서도 독창적인 출력을 생성하도록 유도한다. 다양한 모델 패밀리와 크기에 걸친 실험에서 DARLING은 검증 불가능한 작업(명령어 수행 및 창의적 글쓰기)과 검증 가능한 작업(경쟁 수학) 두 가지 영역에서 일반화됨을 보여준다. 첫 번째 설정의 다섯 가지 벤치마크에서 DARLING은 품질만을 고려한 RL 기준선을 지속적으로 능가하며, 더 높은 품질과 참신성을 동시에 갖춘 출력을 생성한다. 두 번째 설정에서 DARLING은 더 높은 pass@1(해결 품질)과 pass@k(해결 다양성)를 달성한다. 가장 주목할 만한 점은, 다양성을 명시적으로 최적화함으로써 온라인 RL에서 탐구가 촉진되어 더 높은 품질의 응답으로 나타난다는 것이다.
English
Post-training of Large Language Models (LMs) often prioritizes accuracy and helpfulness at the expense of diversity. This creates a tension: while post-training improves response quality, it also sharpens output distributions and reduces the range of ideas, limiting the usefulness of LMs in creative and exploratory tasks such as brainstorming, storytelling, or problem solving. We address this challenge with Diversity-Aware Reinforcement Learning (DARLING), a framework that jointly optimizes for response quality and semantic diversity. At its core, DARLING introduces a learned partition function to measure diversity beyond surface-level lexical variations. This diversity signal is then combined with a quality reward during online reinforcement learning, encouraging models to generate outputs that are both high-quality and distinct. Experiments across multiple model families and sizes show that DARLING generalizes to two regimes: non-verifiable tasks (instruction following and creative writing) and verifiable tasks (competition math). On five benchmarks in the first setting, DARLING consistently outperforms quality-only RL baselines, producing outputs that are simultaneously of higher quality and novelty. In the second setting, DARLING achieves higher pass@1 (solution quality) and pass@k (solution variety). Most strikingly, explicitly optimizing for diversity catalyzes exploration in online RL, which manifests itself as higher-quality responses.
PDF221September 3, 2025