ChatPaper.aiChatPaper

LongWriter-Zero : Maîtriser la génération de textes ultra-longs grâce à l'apprentissage par renforcement

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

June 23, 2025
Auteurs: Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li
cs.AI

Résumé

La génération ultra-longue par les grands modèles de langage (LLMs) est un scénario largement demandé, mais elle reste un défi majeur en raison de leur limite maximale de longueur de génération et de la dégradation globale de la qualité à mesure que la longueur de la séquence augmente. Les approches précédentes, illustrées par LongWriter, reposent généralement sur un « enseignement », qui implique un ajustement fin supervisé (SFT) sur des sorties synthétiques de longue durée. Cependant, cette stratégie dépend fortement de données SFT synthétiques, qui sont difficiles et coûteuses à construire, manquent souvent de cohérence et de consistance, et ont tendance à être trop artificielles et structurellement monotones. Dans ce travail, nous proposons une approche basée sur l'incitation qui, en partant entièrement de zéro et sans s'appuyer sur aucune donnée annotée ou synthétique, exploite l'apprentissage par renforcement (RL) pour favoriser l'émergence de capacités de génération de texte ultra-long et de haute qualité dans les LLMs. Nous effectuons un entraînement RL à partir d'un modèle de base, similaire à R1-Zero, en le guidant à s'engager dans un raisonnement qui facilite la planification et l'affinement pendant le processus d'écriture. Pour soutenir cela, nous utilisons des modèles de récompense spécialisés qui orientent le LLM vers un meilleur contrôle de la longueur, une qualité d'écriture améliorée et un formatage structurel. Les évaluations expérimentales montrent que notre modèle LongWriter-Zero, entraîné à partir de Qwen2.5-32B, surpasse systématiquement les méthodes SFT traditionnelles dans les tâches d'écriture de longue durée, obtenant des résultats de pointe sur toutes les métriques de WritingBench et Arena-Write, et surpassant même des modèles de 100B+ tels que DeepSeek R1 et Qwen3-235B. Nous mettons à disposition nos données et points de contrôle de modèle sous https://huggingface.co/THU-KEG/LongWriter-Zero-32B.
English
Ultra-long generation by large language models (LLMs) is a widely demanded scenario, yet it remains a significant challenge due to their maximum generation length limit and overall quality degradation as sequence length increases. Previous approaches, exemplified by LongWriter, typically rely on ''teaching'', which involves supervised fine-tuning (SFT) on synthetic long-form outputs. However, this strategy heavily depends on synthetic SFT data, which is difficult and costly to construct, often lacks coherence and consistency, and tends to be overly artificial and structurally monotonous. In this work, we propose an incentivization-based approach that, starting entirely from scratch and without relying on any annotated or synthetic data, leverages reinforcement learning (RL) to foster the emergence of ultra-long, high-quality text generation capabilities in LLMs. We perform RL training starting from a base model, similar to R1-Zero, guiding it to engage in reasoning that facilitates planning and refinement during the writing process. To support this, we employ specialized reward models that steer the LLM towards improved length control, writing quality, and structural formatting. Experimental evaluations show that our LongWriter-Zero model, trained from Qwen2.5-32B, consistently outperforms traditional SFT methods on long-form writing tasks, achieving state-of-the-art results across all metrics on WritingBench and Arena-Write, and even surpassing 100B+ models such as DeepSeek R1 and Qwen3-235B. We open-source our data and model checkpoints under https://huggingface.co/THU-KEG/LongWriter-Zero-32B
PDF392June 24, 2025