Ne laissez aucun contexte de côté : Transformers à contexte infini efficaces avec Infini-attentionLeave No Context Behind: Efficient Infinite Context Transformers with
Infini-attention
Ce travail présente une méthode efficace pour adapter les modèles de langage de grande taille (LLMs) basés sur les Transformers à des entrées de longueur infinie avec une mémoire et un calcul limités. Un élément clé de notre approche proposée est une nouvelle technique d'attention appelée Infini-attention. L'Infini-attention intègre une mémoire compressive dans le mécanisme d'attention classique et combine à la fois une attention locale masquée et des mécanismes d'attention linéaire à long terme dans un seul bloc Transformer. Nous démontrons l'efficacité de notre approche sur des benchmarks de modélisation de langage à contexte long, notamment la récupération de blocs contextuels de séquences de 1 million de tokens et la tâche de résumé de livres de 500 000 tokens avec des LLMs de 1 milliard et 8 milliards de paramètres. Notre approche introduit un nombre minimal de paramètres de mémoire limitée et permet une inférence en flux rapide pour les LLMs.