LongWriter: Entfesseln der Erzeugung von über 10.000 Wörtern aus Long Context LLMsLongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs
Aktuelle Sprachmodelle mit langem Kontext (LLMs) können Eingaben von bis zu 100.000 Token verarbeiten, haben jedoch Schwierigkeiten, Ausgaben zu erzeugen, die auch nur eine bescheidene Länge von 2.000 Wörtern überschreiten. Durch kontrollierte Experimente stellen wir fest, dass die effektive Generierungslänge des Modells inhärent durch das Muster begrenzt ist, das es während des überwachten Feinabstimmens (SFT) gesehen hat. Mit anderen Worten, ihre Ausgabebegrenzung ist auf die Knappheit von langen Ausgabebeispielen in vorhandenen SFT-Datensätzen zurückzuführen. Um dies zu lösen, führen wir AgentWrite ein, eine agentenbasierte Pipeline, die ultralange Generierungsaufgaben in Teilaufgaben aufteilt und es Standard-LLMs ermöglicht, kohärente Ausgaben von mehr als 20.000 Wörtern zu erzeugen. Unter Verwendung von AgentWrite erstellen wir LongWriter-6k, einen Datensatz mit 6.000 SFT-Daten und Ausgabelängen von 2k bis 32k Wörtern. Durch die Einbeziehung dieses Datensatzes in das Modelltraining erhöhen wir erfolgreich die Ausgabelänge bestehender Modelle auf über 10.000 Wörter, während wir die Ausgabequalität beibehalten. Wir entwickeln auch LongBench-Write, einen umfassenden Benchmark zur Bewertung der Fähigkeiten zur Generierung von ultralangen Texten. Unser 9B-Parameter-Modell, das durch DPO weiter verbessert wurde, erzielt Spitzenleistungen in diesem Benchmark und übertrifft sogar wesentlich größere proprietäre Modelle. Im Allgemeinen zeigt unsere Arbeit, dass vorhandene Sprachmodelle mit langem Kontext bereits das Potenzial für ein größeres Ausgabefenster besitzen - alles, was Sie benötigen, sind Daten mit erweiterten Ausgaben während der Modellausrichtung, um diese Fähigkeit freizuschalten. Unser Code und unsere Modelle finden Sie unter: https://github.com/THUDM/LongWriter.