LongWriter: Entfesseln der Erzeugung von über 10.000 Wörtern aus Long Context LLMs
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs
August 13, 2024
Autoren: Yushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li
cs.AI
Zusammenfassung
Aktuelle Sprachmodelle mit langem Kontext (LLMs) können Eingaben von bis zu 100.000 Token verarbeiten, haben jedoch Schwierigkeiten, Ausgaben zu erzeugen, die auch nur eine bescheidene Länge von 2.000 Wörtern überschreiten. Durch kontrollierte Experimente stellen wir fest, dass die effektive Generierungslänge des Modells inhärent durch das Muster begrenzt ist, das es während des überwachten Feinabstimmens (SFT) gesehen hat. Mit anderen Worten, ihre Ausgabebegrenzung ist auf die Knappheit von langen Ausgabebeispielen in vorhandenen SFT-Datensätzen zurückzuführen. Um dies zu lösen, führen wir AgentWrite ein, eine agentenbasierte Pipeline, die ultralange Generierungsaufgaben in Teilaufgaben aufteilt und es Standard-LLMs ermöglicht, kohärente Ausgaben von mehr als 20.000 Wörtern zu erzeugen. Unter Verwendung von AgentWrite erstellen wir LongWriter-6k, einen Datensatz mit 6.000 SFT-Daten und Ausgabelängen von 2k bis 32k Wörtern. Durch die Einbeziehung dieses Datensatzes in das Modelltraining erhöhen wir erfolgreich die Ausgabelänge bestehender Modelle auf über 10.000 Wörter, während wir die Ausgabequalität beibehalten. Wir entwickeln auch LongBench-Write, einen umfassenden Benchmark zur Bewertung der Fähigkeiten zur Generierung von ultralangen Texten. Unser 9B-Parameter-Modell, das durch DPO weiter verbessert wurde, erzielt Spitzenleistungen in diesem Benchmark und übertrifft sogar wesentlich größere proprietäre Modelle. Im Allgemeinen zeigt unsere Arbeit, dass vorhandene Sprachmodelle mit langem Kontext bereits das Potenzial für ein größeres Ausgabefenster besitzen - alles, was Sie benötigen, sind Daten mit erweiterten Ausgaben während der Modellausrichtung, um diese Fähigkeit freizuschalten. Unser Code und unsere Modelle finden Sie unter: https://github.com/THUDM/LongWriter.
English
Current long context large language models (LLMs) can process inputs up to
100,000 tokens, yet struggle to generate outputs exceeding even a modest length
of 2,000 words. Through controlled experiments, we find that the model's
effective generation length is inherently bounded by the sample it has seen
during supervised fine-tuning (SFT). In other words, their output limitation is
due to the scarcity of long-output examples in existing SFT datasets. To
address this, we introduce AgentWrite, an agent-based pipeline that decomposes
ultra-long generation tasks into subtasks, enabling off-the-shelf LLMs to
generate coherent outputs exceeding 20,000 words. Leveraging AgentWrite, we
construct LongWriter-6k, a dataset containing 6,000 SFT data with output
lengths ranging from 2k to 32k words. By incorporating this dataset into model
training, we successfully scale the output length of existing models to over
10,000 words while maintaining output quality. We also develop LongBench-Write,
a comprehensive benchmark for evaluating ultra-long generation capabilities.
Our 9B parameter model, further improved through DPO, achieves state-of-the-art
performance on this benchmark, surpassing even much larger proprietary models.
In general, our work demonstrates that existing long context LLM already
possesses the potential for a larger output window--all you need is data with
extended output during model alignment to unlock this capability. Our code &
models are at: https://github.com/THUDM/LongWriter.Summary
AI-Generated Summary