LM-Infinite: Einfache On-the-Fly-Längengeneralisierung für große Sprachmodelle
LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models
August 30, 2023
Autoren: Chi Han, Qifan Wang, Wenhan Xiong, Yu Chen, Heng Ji, Sinong Wang
cs.AI
Zusammenfassung
In den letzten Jahren gab es bemerkenswerte Fortschritte bei der Leistung von Transformer-basierten Large Language Models (LLMs) in verschiedenen Domänen. Da diese LLMs zunehmend für komplexere Aufgaben eingesetzt werden, müssen sie oft längere Denkprozesse durchführen oder größere Kontexte verstehen. In solchen Situationen wird das Versagen der Längengeneralisierung von LLMs bei langen Sequenzen deutlicher. Die meisten Pre-Training-Schemata kürzen Trainingssequenzen auf eine feste Länge (z. B. 2048 für LLaMa). LLMs haben oft Schwierigkeiten, fließende Texte zu generieren, geschweige denn nachgelagerte Aufgaben auszuführen, wenn längere Kontexte vorliegen, selbst mit relativer Positionskodierung, die entwickelt wurde, um dieses Problem zu bewältigen. Häufige Lösungen wie das Feinabstimmen auf längere Korpora erfordern oft enorme Hardware- und Zeitkosten und eine sorgfältige Gestaltung des Trainingsprozesses. Um die Generierungskapazität bestehender LLMs effizienter zu nutzen, untersuchen wir theoretisch und empirisch die Hauptfaktoren für Out-of-Distribution (OOD), die zu diesem Problem beitragen. Inspiriert durch diese Diagnose schlagen wir eine einfache, aber effektive Lösung für die Längengeneralisierung on-the-fly vor, LM-Infinite, das nur eine Lambda-förmige Aufmerksamkeitsmaske und eine Distanzbegrenzung erfordert, ohne Parameteraktualisierungen oder Lernen. Wir finden es anwendbar für eine Vielzahl von LLMs, die relative Positionskodierungsmethoden verwenden. LM-Infinite ist recheneffizient mit O(n) Zeit und Speicher und zeigt eine konsistente Flüssigkeit und Generierungsqualität bei bis zu 32k Tokens auf den Datensätzen ArXiv und OpenWebText2, mit einer 2,72-fachen Beschleunigung der Dekodierung. Bei nachgelagerten Aufgaben wie der Passkey-Rückgewinnung funktioniert es weiterhin bei Eingaben, die viel länger sind als die Trainingslängen, bei denen Standardmodelle sofort versagen.
English
In recent years, there have been remarkable advancements in the performance
of Transformer-based Large Language Models (LLMs) across various domains. As
these LLMs are deployed for increasingly complex tasks, they often face the
needs to conduct longer reasoning processes or understanding larger contexts.
In these situations, the length generalization failure of LLMs on long
sequences become more prominent. Most pre-training schemes truncate training
sequences to a fixed length (such as 2048 for LLaMa). LLMs often struggle to
generate fluent texts, let alone carry out downstream tasks, after longer
contexts, even with relative positional encoding which is designed to cope with
this problem. Common solutions such as finetuning on longer corpora often
involves daunting hardware and time costs and requires careful training process
design. To more efficiently leverage the generation capacity of existing LLMs,
we theoretically and empirically investigate the main out-of-distribution (OOD)
factors contributing to this problem. Inspired by this diagnosis, we propose a
simple yet effective solution for on-the-fly length generalization,
LM-Infinite, which involves only a Lambda-shaped attention mask and a
distance limit while requiring no parameter updates or learning. We find it
applicable to a variety of LLMs using relative-position encoding methods.
LM-Infinite is computational efficient with O(n) time and space, and
demonstrates consistent fluency and generation quality to as long as 32k tokens
on ArXiv and OpenWebText2 datasets, with 2.72x decoding speedup. On downstream
task such as passkey retrieval, it continues to work on inputs much longer than
training lengths where vanilla models fail immediately.