DPWriter : Apprentissage par Renforcement avec Branchement de Planification Diversifié pour l'Écriture Créative
DPWriter: Reinforcement Learning with Diverse Planning Branching for Creative Writing
January 14, 2026
papers.authors: Qian Cao, Yahui Liu, Wei Bi, Yi Zhao, Ruihua Song, Xiting Wang, Ruiming Tang, Guorui Zhou, Han Li
cs.AI
papers.abstract
L'amélioration des grands modèles de langage (LLM) par apprentissage par renforcement (RL) entraîne souvent une réduction de la diversité des sorties, compromettant ainsi leur utilité dans des tâches ouvertes comme l'écriture créative. Les méthodes actuelles manquent de mécanismes explicites pour guider une exploration diversifiée et privilégient plutôt l'efficacité d'optimisation et les performances au détriment de la diversité. Cet article propose un cadre de RL structuré autour d'une Chaîne de Pensée (CoT) longue et semi-structurée, dans laquelle le processus de génération est décomposé en étapes intermédiaires explicitement planifiées. Nous introduisons une méthode de Branchement de Planification Diversifiée qui introduit stratégiquement une divergence lors de la phase de planification en fonction de la variation de la diversité, ainsi qu'une récompense de diversité sensible au groupe pour encourager des trajectoires distinctes. Les résultats expérimentaux sur des benchmarks d'écriture créative démontrent que notre approche améliore significativement la diversité des sorties sans compromettre la qualité de la génération, surpassant constamment les méthodes de référence existantes.
English
Reinforcement learning (RL)-based enhancement of large language models (LLMs) often leads to reduced output diversity, undermining their utility in open-ended tasks like creative writing. Current methods lack explicit mechanisms for guiding diverse exploration and instead prioritize optimization efficiency and performance over diversity. This paper proposes an RL framework structured around a semi-structured long Chain-of-Thought (CoT), in which the generation process is decomposed into explicitly planned intermediate steps. We introduce a Diverse Planning Branching method that strategically introduces divergence at the planning phase based on diversity variation, alongside a group-aware diversity reward to encourage distinct trajectories. Experimental results on creative writing benchmarks demonstrate that our approach significantly improves output diversity without compromising generation quality, consistently outperforming existing baselines.