Ne laissez aucun contexte de côté : Transformers à contexte infini efficaces avec Infini-attention

papers.abstract

Ce travail présente une méthode efficace pour adapter les modèles de langage de grande taille (LLMs) basés sur les Transformers à des entrées de longueur infinie avec une mémoire et un calcul limités. Un élément clé de notre approche proposée est une nouvelle technique d'attention appelée Infini-attention. L'Infini-attention intègre une mémoire compressive dans le mécanisme d'attention classique et combine à la fois une attention locale masquée et des mécanismes d'attention linéaire à long terme dans un seul bloc Transformer. Nous démontrons l'efficacité de notre approche sur des benchmarks de modélisation de langage à contexte long, notamment la récupération de blocs contextuels de séquences de 1 million de tokens et la tâche de résumé de livres de 500 000 tokens avec des LLMs de 1 milliard et 8 milliards de paramètres. Notre approche introduit un nombre minimal de paramètres de mémoire limitée et permet une inférence en flux rapide pour les LLMs.

English

This work introduces an efficient method to scale Transformer-based Large Language Models (LLMs) to infinitely long inputs with bounded memory and computation. A key component in our proposed approach is a new attention technique dubbed Infini-attention. The Infini-attention incorporates a compressive memory into the vanilla attention mechanism and builds in both masked local attention and long-term linear attention mechanisms in a single Transformer block. We demonstrate the effectiveness of our approach on long-context language modeling benchmarks, 1M sequence length passkey context block retrieval and 500K length book summarization tasks with 1B and 8B LLMs. Our approach introduces minimal bounded memory parameters and enables fast streaming inference for LLMs.

Ne laissez aucun contexte de côté : Transformers à contexte infini efficaces avec Infini-attention

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

papers.abstract

Support