LM-Infinite: Eenvoudige On-the-Fly Lengtegeneralizatie voor Grote Taalmodellen

Samenvatting

De afgelopen jaren zijn er opmerkelijke vooruitgangen geboekt in de prestaties van Transformer-gebaseerde Large Language Models (LLMs) in verschillende domeinen. Naarmate deze LLMs worden ingezet voor steeds complexere taken, worden ze vaak geconfronteerd met de noodzaak om langere redeneerprocessen uit te voeren of grotere contexten te begrijpen. In deze situaties wordt het falen van LLMs in lengtegeneralizatie bij lange sequenties steeds duidelijker. De meeste voorafgaande trainingsschema's beperken trainingssequenties tot een vaste lengte (zoals 2048 voor LLaMa). LLMs hebben vaak moeite om vloeiende teksten te genereren, laat staan downstream taken uit te voeren, na langere contexten, zelfs met relatieve positionele codering die is ontworpen om dit probleem aan te pakken. Veelvoorkomende oplossingen zoals finetunen op langere corpora gaan vaak gepaard met aanzienlijke hardware- en tijdskosten en vereisen een zorgvuldige ontwerp van het trainingsproces. Om het generatievermogen van bestaande LLMs efficiënter te benutten, onderzoeken we theoretisch en empirisch de belangrijkste out-of-distribution (OOD) factoren die bijdragen aan dit probleem. Geïnspireerd door deze diagnose stellen we een eenvoudige maar effectieve oplossing voor voor on-the-fly lengtegeneralizatie, LM-Infinite, die alleen een Lambda-vormig aandachtmasker en een afstandslimiet omvat en geen parameterupdates of leren vereist. We vinden het toepasbaar op een verscheidenheid aan LLMs die relatieve-positioneringscoderingmethoden gebruiken. LM-Infinite is computationeel efficiënt met O(n) tijd en ruimte, en toont consistente vloeiendheid en generatiekwaliteit tot wel 32k tokens op ArXiv en OpenWebText2 datasets, met een 2,72x versnelling in decodering. Bij downstream taken zoals passkey retrieval blijft het werken op invoer die veel langer is dan de trainingslengtes waarop standaardmodellen direct falen.

English

In recent years, there have been remarkable advancements in the performance of Transformer-based Large Language Models (LLMs) across various domains. As these LLMs are deployed for increasingly complex tasks, they often face the needs to conduct longer reasoning processes or understanding larger contexts. In these situations, the length generalization failure of LLMs on long sequences become more prominent. Most pre-training schemes truncate training sequences to a fixed length (such as 2048 for LLaMa). LLMs often struggle to generate fluent texts, let alone carry out downstream tasks, after longer contexts, even with relative positional encoding which is designed to cope with this problem. Common solutions such as finetuning on longer corpora often involves daunting hardware and time costs and requires careful training process design. To more efficiently leverage the generation capacity of existing LLMs, we theoretically and empirically investigate the main out-of-distribution (OOD) factors contributing to this problem. Inspired by this diagnosis, we propose a simple yet effective solution for on-the-fly length generalization, LM-Infinite, which involves only a Lambda-shaped attention mask and a distance limit while requiring no parameter updates or learning. We find it applicable to a variety of LLMs using relative-position encoding methods. LM-Infinite is computational efficient with O(n) time and space, and demonstrates consistent fluency and generation quality to as long as 32k tokens on ArXiv and OpenWebText2 datasets, with 2.72x decoding speedup. On downstream task such as passkey retrieval, it continues to work on inputs much longer than training lengths where vanilla models fail immediately.

LM-Infinite: Eenvoudige On-the-Fly Lengtegeneralizatie voor Grote Taalmodellen

LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models

Samenvatting

Support