LongWriter-Zero : Maîtriser la génération de textes ultra-longs grâce à l'apprentissage par renforcement
LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning
June 23, 2025
Auteurs: Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li
cs.AI
Résumé
La génération ultra-longue par les grands modèles de langage (LLMs) est un scénario largement demandé, mais elle reste un défi majeur en raison de leur limite maximale de longueur de génération et de la dégradation globale de la qualité à mesure que la longueur de la séquence augmente. Les approches précédentes, illustrées par LongWriter, reposent généralement sur un « enseignement », qui implique un ajustement fin supervisé (SFT) sur des sorties synthétiques de longue durée. Cependant, cette stratégie dépend fortement de données SFT synthétiques, qui sont difficiles et coûteuses à construire, manquent souvent de cohérence et de consistance, et ont tendance à être trop artificielles et structurellement monotones. Dans ce travail, nous proposons une approche basée sur l'incitation qui, en partant entièrement de zéro et sans s'appuyer sur aucune donnée annotée ou synthétique, exploite l'apprentissage par renforcement (RL) pour favoriser l'émergence de capacités de génération de texte ultra-long et de haute qualité dans les LLMs. Nous effectuons un entraînement RL à partir d'un modèle de base, similaire à R1-Zero, en le guidant à s'engager dans un raisonnement qui facilite la planification et l'affinement pendant le processus d'écriture. Pour soutenir cela, nous utilisons des modèles de récompense spécialisés qui orientent le LLM vers un meilleur contrôle de la longueur, une qualité d'écriture améliorée et un formatage structurel. Les évaluations expérimentales montrent que notre modèle LongWriter-Zero, entraîné à partir de Qwen2.5-32B, surpasse systématiquement les méthodes SFT traditionnelles dans les tâches d'écriture de longue durée, obtenant des résultats de pointe sur toutes les métriques de WritingBench et Arena-Write, et surpassant même des modèles de 100B+ tels que DeepSeek R1 et Qwen3-235B. Nous mettons à disposition nos données et points de contrôle de modèle sous https://huggingface.co/THU-KEG/LongWriter-Zero-32B.
English
Ultra-long generation by large language models (LLMs) is a widely demanded
scenario, yet it remains a significant challenge due to their maximum
generation length limit and overall quality degradation as sequence length
increases. Previous approaches, exemplified by LongWriter, typically rely on
''teaching'', which involves supervised fine-tuning (SFT) on synthetic
long-form outputs. However, this strategy heavily depends on synthetic SFT
data, which is difficult and costly to construct, often lacks coherence and
consistency, and tends to be overly artificial and structurally monotonous. In
this work, we propose an incentivization-based approach that, starting entirely
from scratch and without relying on any annotated or synthetic data, leverages
reinforcement learning (RL) to foster the emergence of ultra-long, high-quality
text generation capabilities in LLMs. We perform RL training starting from a
base model, similar to R1-Zero, guiding it to engage in reasoning that
facilitates planning and refinement during the writing process. To support
this, we employ specialized reward models that steer the LLM towards improved
length control, writing quality, and structural formatting. Experimental
evaluations show that our LongWriter-Zero model, trained from Qwen2.5-32B,
consistently outperforms traditional SFT methods on long-form writing tasks,
achieving state-of-the-art results across all metrics on WritingBench and
Arena-Write, and even surpassing 100B+ models such as DeepSeek R1 and
Qwen3-235B. We open-source our data and model checkpoints under
https://huggingface.co/THU-KEG/LongWriter-Zero-32B