DPWriter:創造的ライティングのための多様な計画分岐を備えた強化学習
DPWriter: Reinforcement Learning with Diverse Planning Branching for Creative Writing
January 14, 2026
著者: Qian Cao, Yahui Liu, Wei Bi, Yi Zhao, Ruihua Song, Xiting Wang, Ruiming Tang, Guorui Zhou, Han Li
cs.AI
要旨
強化学習(RL)に基づく大規模言語モデル(LLM)の性能向上は、出力の多様性低下を招きがちであり、創造的作文などの開放型タスクにおける実用性を損なう。既存手法は、多様な探索を導出する明示的なメカニズムを欠き、多様性よりも最適化効率と性能を優先している。本論文では、生成プロセスを明示的に計画された中間段階に分解する、半構造化された長い思考の連鎖(CoT)を中核とするRLフレームワークを提案する。計画段階において多様性の変動に基づいて戦略的に分岐を導入する多様性計画分岐法と、異なる軌道を促進するグループ認識型多様性報酬を導入する。創造的作文ベンチマークにおける実験結果は、本手法が生成品質を損なうことなく出力の多様性を大幅に改善し、既存のベースライン手法を一貫して上回ることを示している。
English
Reinforcement learning (RL)-based enhancement of large language models (LLMs) often leads to reduced output diversity, undermining their utility in open-ended tasks like creative writing. Current methods lack explicit mechanisms for guiding diverse exploration and instead prioritize optimization efficiency and performance over diversity. This paper proposes an RL framework structured around a semi-structured long Chain-of-Thought (CoT), in which the generation process is decomposed into explicitly planned intermediate steps. We introduce a Diverse Planning Branching method that strategically introduces divergence at the planning phase based on diversity variation, alongside a group-aware diversity reward to encourage distinct trajectories. Experimental results on creative writing benchmarks demonstrate that our approach significantly improves output diversity without compromising generation quality, consistently outperforming existing baselines.