DPWriter: 창의적 글쓰기를 위한 다양한 계획 분기 기반 강화 학습
DPWriter: Reinforcement Learning with Diverse Planning Branching for Creative Writing
January 14, 2026
저자: Qian Cao, Yahui Liu, Wei Bi, Yi Zhao, Ruihua Song, Xiting Wang, Ruiming Tang, Guorui Zhou, Han Li
cs.AI
초록
강화학습(RL) 기반 대규모 언어 모델(LLM) 향상은 종종 출력 다양성을 감소시켜 창의적 글쓰기와 같은 개방형 과제에서의 유용성을 저해합니다. 기존 방법은 다양성 탐색을 명시적으로 유도하는 메커니즘을 결여한 채 다양성보다 최적화 효율과 성능을 우선시합니다. 본 논문은 생성 과정을 명시적으로 계획된 중간 단계로 분해하는 반구조화된 긴 사고 연쇄(CoT)를 중심으로 구성된 RL 프레임워크를 제안합니다. 다양성 변화를 기반으로 계획 단계에서 전략적으로 분기를 도입하는 다양성 계획 분기법과 상이한 경로를 장려하기 위한 그룹 인식 다양성 보상을 함께 소개합니다. 창의적 글쓰기 벤치마크에서의 실험 결과는 우리의 접근법이 생성 품질을 저하시키지 않으면서 출력 다양성을 크게 향상시키며 기존 기준선을 지속적으로 능가함을 입증합니다.
English
Reinforcement learning (RL)-based enhancement of large language models (LLMs) often leads to reduced output diversity, undermining their utility in open-ended tasks like creative writing. Current methods lack explicit mechanisms for guiding diverse exploration and instead prioritize optimization efficiency and performance over diversity. This paper proposes an RL framework structured around a semi-structured long Chain-of-Thought (CoT), in which the generation process is decomposed into explicitly planned intermediate steps. We introduce a Diverse Planning Branching method that strategically introduces divergence at the planning phase based on diversity variation, alongside a group-aware diversity reward to encourage distinct trajectories. Experimental results on creative writing benchmarks demonstrate that our approach significantly improves output diversity without compromising generation quality, consistently outperforming existing baselines.