Kein Kontext zurücklassen: Effiziente Infinite Context Transformer mit Infini-Aufmerksamkeit.Leave No Context Behind: Efficient Infinite Context Transformers with
Infini-attention
Diese Arbeit stellt eine effiziente Methode vor, um Transformer-basierte Large Language Models (LLMs) auf unendlich lange Eingaben mit begrenztem Speicher und Rechenleistung zu skalieren. Ein Schlüsselelement unseres vorgeschlagenen Ansatzes ist eine neue Aufmerksamkeitstechnik namens Infini-Attention. Die Infini-Attention integriert einen komprimierten Speicher in den herkömmlichen Aufmerksamkeitsmechanismus und implementiert sowohl maskierte lokale Aufmerksamkeit als auch langfristige lineare Aufmerksamkeitsmechanismen in einem einzigen Transformer-Block. Wir zeigen die Wirksamkeit unseres Ansatzes anhand von Langkontext-Sprachmodellierungs-Benchmarks, 1M-Sequenzlänge Passkey-Kontextblockabruf und 500K-Länge Buchzusammenfassungsaufgaben mit 1B- und 8B-LLMs. Unser Ansatz führt minimale begrenzte Speicherparameter ein und ermöglicht schnelle Streaming-Inferenz für LLMs.