LM-Infinite: Generalizzazione Semplice della Lunghezza in Tempo Reale per Modelli Linguistici di Grande Dimensione

Abstract

Negli ultimi anni, si sono registrati progressi significativi nelle prestazioni dei modelli linguistici di grandi dimensioni (LLM) basati su Transformer in vari domini. Man mano che questi LLM vengono impiegati per compiti sempre più complessi, si trovano spesso a dover affrontare la necessità di condurre processi di ragionamento più lunghi o di comprendere contesti più ampi. In queste situazioni, il fallimento nella generalizzazione della lunghezza degli LLM su sequenze lunghe diventa più evidente. La maggior parte degli schemi di pre-addestramento tronca le sequenze di addestramento a una lunghezza fissa (come 2048 per LLaMa). Gli LLM spesso faticano a generare testi fluidi, per non parlare di eseguire compiti downstream, dopo contesti più lunghi, anche con codifiche posizionali relative progettate per affrontare questo problema. Soluzioni comuni come il fine-tuning su corpora più lunghi spesso comportano costi hardware e temporali proibitivi e richiedono un'attenta progettazione del processo di addestramento. Per sfruttare in modo più efficiente la capacità di generazione degli LLM esistenti, indaghiamo teoricamente ed empiricamente i principali fattori di out-of-distribution (OOD) che contribuiscono a questo problema. Ispirati da questa diagnosi, proponiamo una soluzione semplice ma efficace per la generalizzazione della lunghezza on-the-fly, LM-Infinite, che prevede solo una maschera di attenzione a forma di Lambda e un limite di distanza, senza richiedere aggiornamenti dei parametri o apprendimento. Troviamo che sia applicabile a una varietà di LLM che utilizzano metodi di codifica posizionale relativa. LM-Infinite è computazionalmente efficiente con complessità temporale e spaziale O(n) e dimostra una fluenza e qualità di generazione costanti fino a 32k token sui dataset ArXiv e OpenWebText2, con un'accelerazione della decodifica di 2,72x. Su compiti downstream come il recupero di passkey, continua a funzionare su input molto più lunghi delle lunghezze di addestramento dove i modelli standard falliscono immediatamente.

English

In recent years, there have been remarkable advancements in the performance of Transformer-based Large Language Models (LLMs) across various domains. As these LLMs are deployed for increasingly complex tasks, they often face the needs to conduct longer reasoning processes or understanding larger contexts. In these situations, the length generalization failure of LLMs on long sequences become more prominent. Most pre-training schemes truncate training sequences to a fixed length (such as 2048 for LLaMa). LLMs often struggle to generate fluent texts, let alone carry out downstream tasks, after longer contexts, even with relative positional encoding which is designed to cope with this problem. Common solutions such as finetuning on longer corpora often involves daunting hardware and time costs and requires careful training process design. To more efficiently leverage the generation capacity of existing LLMs, we theoretically and empirically investigate the main out-of-distribution (OOD) factors contributing to this problem. Inspired by this diagnosis, we propose a simple yet effective solution for on-the-fly length generalization, LM-Infinite, which involves only a Lambda-shaped attention mask and a distance limit while requiring no parameter updates or learning. We find it applicable to a variety of LLMs using relative-position encoding methods. LM-Infinite is computational efficient with O(n) time and space, and demonstrates consistent fluency and generation quality to as long as 32k tokens on ArXiv and OpenWebText2 datasets, with 2.72x decoding speedup. On downstream task such as passkey retrieval, it continues to work on inputs much longer than training lengths where vanilla models fail immediately.

LM-Infinite: Generalizzazione Semplice della Lunghezza in Tempo Reale per Modelli Linguistici di Grande Dimensione

LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models

Abstract

Support