Ne laissez aucun contexte de côté : Transformers à contexte infini efficaces avec Infini-attention
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
April 10, 2024
papers.authors: Tsendsuren Munkhdalai, Manaal Faruqui, Siddharth Gopal
cs.AI
papers.abstract
Ce travail présente une méthode efficace pour adapter les modèles de langage de grande taille (LLMs) basés sur les Transformers à des entrées de longueur infinie avec une mémoire et un calcul limités. Un élément clé de notre approche proposée est une nouvelle technique d'attention appelée Infini-attention. L'Infini-attention intègre une mémoire compressive dans le mécanisme d'attention classique et combine à la fois une attention locale masquée et des mécanismes d'attention linéaire à long terme dans un seul bloc Transformer. Nous démontrons l'efficacité de notre approche sur des benchmarks de modélisation de langage à contexte long, notamment la récupération de blocs contextuels de séquences de 1 million de tokens et la tâche de résumé de livres de 500 000 tokens avec des LLMs de 1 milliard et 8 milliards de paramètres. Notre approche introduit un nombre minimal de paramètres de mémoire limitée et permet une inférence en flux rapide pour les LLMs.
English
This work introduces an efficient method to scale Transformer-based Large
Language Models (LLMs) to infinitely long inputs with bounded memory and
computation. A key component in our proposed approach is a new attention
technique dubbed Infini-attention. The Infini-attention incorporates a
compressive memory into the vanilla attention mechanism and builds in both
masked local attention and long-term linear attention mechanisms in a single
Transformer block. We demonstrate the effectiveness of our approach on
long-context language modeling benchmarks, 1M sequence length passkey context
block retrieval and 500K length book summarization tasks with 1B and 8B LLMs.
Our approach introduces minimal bounded memory parameters and enables fast
streaming inference for LLMs.