DPWriter: Apprendimento per Rinforzo con Ramificazione Pianificativa Diversificata per la Scrittura Creativa

Abstract

Il miglioramento dei grandi modelli linguistici (LLM) basato sull'apprendimento per rinforzo (RL) spesso comporta una ridotta diversità degli output, compromettendo la loro utilità in compiti aperti come la scrittura creativa. I metodi attuali mancano di meccanismi espliciti per guidare un'esplorazione diversificata e privilegiano l'efficienza di ottimizzazione e le prestazioni a scapito della diversità. Questo articolo propone un framework RL strutturato attorno a una Catena di Pensiero (CoT) semi-strutturata e lunga, in cui il processo di generazione viene scomposto in passi intermedi esplicitamente pianificati. Introduciamo un metodo di Ramificazione della Pianificazione Diversificata che introduce strategicamente divergenza nella fase di pianificazione in base alla variazione di diversità, unitamente a una ricompensa di diversità group-aware per incentivare traiettorie distinte. I risultati sperimentali su benchmark di scrittura creativa dimostrano che il nostro approccio migliora significativamente la diversità degli output senza compromettere la qualità della generazione, superando costantemente i baseline esistenti.

English

Reinforcement learning (RL)-based enhancement of large language models (LLMs) often leads to reduced output diversity, undermining their utility in open-ended tasks like creative writing. Current methods lack explicit mechanisms for guiding diverse exploration and instead prioritize optimization efficiency and performance over diversity. This paper proposes an RL framework structured around a semi-structured long Chain-of-Thought (CoT), in which the generation process is decomposed into explicitly planned intermediate steps. We introduce a Diverse Planning Branching method that strategically introduces divergence at the planning phase based on diversity variation, alongside a group-aware diversity reward to encourage distinct trajectories. Experimental results on creative writing benchmarks demonstrate that our approach significantly improves output diversity without compromising generation quality, consistently outperforming existing baselines.

DPWriter: Apprendimento per Rinforzo con Ramificazione Pianificativa Diversificata per la Scrittura Creativa

DPWriter: Reinforcement Learning with Diverse Planning Branching for Creative Writing

Abstract

Support