LongWriter : Libérer la génération de textes de 10 000+ mots à partir de modèles de langage à contexte étendu
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs
August 13, 2024
Auteurs: Yushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li
cs.AI
Résumé
Les modèles de langage à contexte étendu (LLMs) actuels peuvent traiter des entrées allant jusqu'à 100 000 tokens, mais peinent à générer des dépassant même une longueur modeste de 2 000 mots. À travers des expériences contrôlées, nous constatons que la longueur effective de génération du modèle est intrinsèquement limitée par les échantillons qu'il a vus lors du réglage supervisé (SFT). En d'autres termes, leur limitation de sortie est due à la rareté des exemples de sorties longues dans les ensembles de données SFT existants. Pour remédier à cela, nous introduisons AgentWrite, un pipeline basé sur des agents qui décompose les tâches de génération ultra-longues en sous-tâches, permettant aux LLMs disponibles sur étagère de générer des sorties cohérentes dépassant 20 000 mots. En exploitant AgentWrite, nous construisons LongWriter-6k, un ensemble de données contenant 6 000 données SFT avec des longueurs de sortie allant de 2k à 32k mots. En intégrant cet ensemble de données dans l'entraînement des modèles, nous parvenons à étendre la longueur de sortie des modèles existants à plus de 10 000 mots tout en maintenant la qualité de la sortie. Nous développons également LongBench-Write, un benchmark complet pour évaluer les capacités de génération ultra-longues. Notre modèle de 9B paramètres, encore amélioré grâce à DPO, atteint des performances de pointe sur ce benchmark, surpassant même des modèles propriétaires beaucoup plus volumineux. En général, notre travail démontre que les LLMs à contexte étendu existants possèdent déjà le potentiel pour une fenêtre de sortie plus large—tout ce dont vous avez besoin est des données avec des sorties étendues lors de l'alignement du modèle pour débloquer cette capacité. Notre code et nos modèles sont disponibles à l'adresse : https://github.com/THUDM/LongWriter.
English
Current long context large language models (LLMs) can process inputs up to
100,000 tokens, yet struggle to generate outputs exceeding even a modest length
of 2,000 words. Through controlled experiments, we find that the model's
effective generation length is inherently bounded by the sample it has seen
during supervised fine-tuning (SFT). In other words, their output limitation is
due to the scarcity of long-output examples in existing SFT datasets. To
address this, we introduce AgentWrite, an agent-based pipeline that decomposes
ultra-long generation tasks into subtasks, enabling off-the-shelf LLMs to
generate coherent outputs exceeding 20,000 words. Leveraging AgentWrite, we
construct LongWriter-6k, a dataset containing 6,000 SFT data with output
lengths ranging from 2k to 32k words. By incorporating this dataset into model
training, we successfully scale the output length of existing models to over
10,000 words while maintaining output quality. We also develop LongBench-Write,
a comprehensive benchmark for evaluating ultra-long generation capabilities.
Our 9B parameter model, further improved through DPO, achieves state-of-the-art
performance on this benchmark, surpassing even much larger proprietary models.
In general, our work demonstrates that existing long context LLM already
possesses the potential for a larger output window--all you need is data with
extended output during model alignment to unlock this capability. Our code &
models are at: https://github.com/THUDM/LongWriter.Summary
AI-Generated Summary