ChatPaper.aiChatPaper

LongWriter-Zero: 強化学習による超長文生成のマスタリング

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

June 23, 2025
著者: Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li
cs.AI

要旨

大規模言語モデル(LLM)による超長文生成は広く求められるシナリオであるが、最大生成長の制限やシーケンス長の増加に伴う全体的な品質の低下により、依然として重要な課題となっている。従来のアプローチ、例えばLongWriterは、一般的に「教示」に依存しており、これは合成された長文出力に対する教師あり微調整(SFT)を含む。しかし、この戦略は合成SFTデータに大きく依存しており、その構築は困難かつコストがかかり、しばしば一貫性や整合性に欠け、過度に人工的で構造的に単調になる傾向がある。本研究では、注釈付きや合成データに一切依存せず、完全にゼロから始めて、強化学習(RL)を活用することで、LLMに超長文かつ高品質なテキスト生成能力を発現させるインセンティブベースのアプローチを提案する。我々は、R1-Zeroと同様に、ベースモデルからRLトレーニングを開始し、執筆プロセスにおける計画と洗練を促進する推論に従事するよう導く。これを支援するため、LLMを長さ制御、執筆品質、構造フォーマットの改善に向けて導く専門的な報酬モデルを採用する。実験的評価により、Qwen2.5-32Bからトレーニングされた我々のLongWriter-Zeroモデルが、長文執筆タスクにおいて従来のSFT手法を一貫して上回り、WritingBenchおよびArena-Writeの全てのメトリクスで最先端の結果を達成し、DeepSeek R1やQwen3-235Bなどの100B+モデルをも凌駕することが示された。我々は、データとモデルチェックポイントをhttps://huggingface.co/THU-KEG/LongWriter-Zero-32Bでオープンソースとして公開する。
English
Ultra-long generation by large language models (LLMs) is a widely demanded scenario, yet it remains a significant challenge due to their maximum generation length limit and overall quality degradation as sequence length increases. Previous approaches, exemplified by LongWriter, typically rely on ''teaching'', which involves supervised fine-tuning (SFT) on synthetic long-form outputs. However, this strategy heavily depends on synthetic SFT data, which is difficult and costly to construct, often lacks coherence and consistency, and tends to be overly artificial and structurally monotonous. In this work, we propose an incentivization-based approach that, starting entirely from scratch and without relying on any annotated or synthetic data, leverages reinforcement learning (RL) to foster the emergence of ultra-long, high-quality text generation capabilities in LLMs. We perform RL training starting from a base model, similar to R1-Zero, guiding it to engage in reasoning that facilitates planning and refinement during the writing process. To support this, we employ specialized reward models that steer the LLM towards improved length control, writing quality, and structural formatting. Experimental evaluations show that our LongWriter-Zero model, trained from Qwen2.5-32B, consistently outperforms traditional SFT methods on long-form writing tasks, achieving state-of-the-art results across all metrics on WritingBench and Arena-Write, and even surpassing 100B+ models such as DeepSeek R1 and Qwen3-235B. We open-source our data and model checkpoints under https://huggingface.co/THU-KEG/LongWriter-Zero-32B
PDF392June 24, 2025