LongWriter : Libérer la génération de textes de 10 000+ mots à partir de modèles de langage à contexte étenduLongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs
Les modèles de langage à contexte étendu (LLMs) actuels peuvent traiter des entrées allant jusqu'à 100 000 tokens, mais peinent à générer des dépassant même une longueur modeste de 2 000 mots. À travers des expériences contrôlées, nous constatons que la longueur effective de génération du modèle est intrinsèquement limitée par les échantillons qu'il a vus lors du réglage supervisé (SFT). En d'autres termes, leur limitation de sortie est due à la rareté des exemples de sorties longues dans les ensembles de données SFT existants. Pour remédier à cela, nous introduisons AgentWrite, un pipeline basé sur des agents qui décompose les tâches de génération ultra-longues en sous-tâches, permettant aux LLMs disponibles sur étagère de générer des sorties cohérentes dépassant 20 000 mots. En exploitant AgentWrite, nous construisons LongWriter-6k, un ensemble de données contenant 6 000 données SFT avec des longueurs de sortie allant de 2k à 32k mots. En intégrant cet ensemble de données dans l'entraînement des modèles, nous parvenons à étendre la longueur de sortie des modèles existants à plus de 10 000 mots tout en maintenant la qualité de la sortie. Nous développons également LongBench-Write, un benchmark complet pour évaluer les capacités de génération ultra-longues. Notre modèle de 9B paramètres, encore amélioré grâce à DPO, atteint des performances de pointe sur ce benchmark, surpassant même des modèles propriétaires beaucoup plus volumineux. En général, notre travail démontre que les LLMs à contexte étendu existants possèdent déjà le potentiel pour une fenêtre de sortie plus large—tout ce dont vous avez besoin est des données avec des sorties étendues lors de l'alignement du modèle pour débloquer cette capacité. Notre code et nos modèles sont disponibles à l'adresse : https://github.com/THUDM/LongWriter.