LM-Infinite: Generalización Simple de Longitud en Tiempo Real para Modelos de Lenguaje a Gran Escala

Resumen

En los últimos años, se han logrado avances notables en el rendimiento de los Modelos de Lenguaje de Gran Escala (LLMs) basados en Transformers en diversos dominios. A medida que estos LLMs se despliegan para tareas cada vez más complejas, a menudo enfrentan la necesidad de llevar a cabo procesos de razonamiento más largos o comprender contextos más amplios. En estas situaciones, el fallo en la generalización de longitud de los LLMs en secuencias largas se vuelve más evidente. La mayoría de los esquemas de preentrenamiento truncan las secuencias de entrenamiento a una longitud fija (como 2048 para LLaMa). Los LLMs suelen tener dificultades para generar textos fluidos, y mucho menos para realizar tareas posteriores, después de contextos más largos, incluso con codificación posicional relativa que está diseñada para abordar este problema. Soluciones comunes como el ajuste fino en corpus más largos a menudo implican costos de hardware y tiempo abrumadores y requieren un diseño cuidadoso del proceso de entrenamiento. Para aprovechar de manera más eficiente la capacidad de generación de los LLMs existentes, investigamos teórica y empíricamente los principales factores fuera de distribución (OOD) que contribuyen a este problema. Inspirados por este diagnóstico, proponemos una solución simple pero efectiva para la generalización de longitud sobre la marcha, LM-Infinite, que implica solo una máscara de atención en forma de Lambda y un límite de distancia, sin necesidad de actualizaciones de parámetros o aprendizaje. Encontramos que es aplicable a una variedad de LLMs que utilizan métodos de codificación posicional relativa. LM-Infinite es computacionalmente eficiente con tiempo y espacio O(n), y demuestra fluidez y calidad de generación consistentes hasta 32k tokens en los conjuntos de datos ArXiv y OpenWebText2, con una aceleración de decodificación de 2.72x. En tareas posteriores como la recuperación de claves, continúa funcionando en entradas mucho más largas que las longitudes de entrenamiento donde los modelos convencionales fallan inmediatamente.

English

In recent years, there have been remarkable advancements in the performance of Transformer-based Large Language Models (LLMs) across various domains. As these LLMs are deployed for increasingly complex tasks, they often face the needs to conduct longer reasoning processes or understanding larger contexts. In these situations, the length generalization failure of LLMs on long sequences become more prominent. Most pre-training schemes truncate training sequences to a fixed length (such as 2048 for LLaMa). LLMs often struggle to generate fluent texts, let alone carry out downstream tasks, after longer contexts, even with relative positional encoding which is designed to cope with this problem. Common solutions such as finetuning on longer corpora often involves daunting hardware and time costs and requires careful training process design. To more efficiently leverage the generation capacity of existing LLMs, we theoretically and empirically investigate the main out-of-distribution (OOD) factors contributing to this problem. Inspired by this diagnosis, we propose a simple yet effective solution for on-the-fly length generalization, LM-Infinite, which involves only a Lambda-shaped attention mask and a distance limit while requiring no parameter updates or learning. We find it applicable to a variety of LLMs using relative-position encoding methods. LM-Infinite is computational efficient with O(n) time and space, and demonstrates consistent fluency and generation quality to as long as 32k tokens on ArXiv and OpenWebText2 datasets, with 2.72x decoding speedup. On downstream task such as passkey retrieval, it continues to work on inputs much longer than training lengths where vanilla models fail immediately.

LM-Infinite: Generalización Simple de Longitud en Tiempo Real para Modelos de Lenguaje a Gran Escala

LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models

Resumen

Support