Non Lasciare Indietro Nessun Contesto: Trasformatori Efficienti con Contesto Infinito tramite Infini-attention

Abstract

Questo lavoro introduce un metodo efficiente per scalare i modelli linguistici di grandi dimensioni (LLM) basati su Transformer a input di lunghezza infinita con memoria e calcolo limitati. Un componente chiave del nostro approccio proposto è una nuova tecnica di attenzione denominata Infini-attention. L'Infini-attention incorpora una memoria compressiva nel meccanismo di attenzione standard e integra sia l'attenzione locale mascherata che i meccanismi di attenzione lineare a lungo termine in un singolo blocco Transformer. Dimostriamo l'efficacia del nostro approccio su benchmark di modellazione linguistica a contesto lungo, il recupero di blocchi di contesto passkey con sequenze di 1M di lunghezza e il riassunto di libri con sequenze di 500K di lunghezza utilizzando LLM da 1B e 8B parametri. Il nostro approccio introduce parametri di memoria limitati e consente un'inferenza in streaming rapida per i LLM.

English

This work introduces an efficient method to scale Transformer-based Large Language Models (LLMs) to infinitely long inputs with bounded memory and computation. A key component in our proposed approach is a new attention technique dubbed Infini-attention. The Infini-attention incorporates a compressive memory into the vanilla attention mechanism and builds in both masked local attention and long-term linear attention mechanisms in a single Transformer block. We demonstrate the effectiveness of our approach on long-context language modeling benchmarks, 1M sequence length passkey context block retrieval and 500K length book summarization tasks with 1B and 8B LLMs. Our approach introduces minimal bounded memory parameters and enables fast streaming inference for LLMs.

Non Lasciare Indietro Nessun Contesto: Trasformatori Efficienti con Contesto Infinito tramite Infini-attention

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Abstract

Support