Не оставляйте контекст без внимания: эффективные трансформеры с бесконечным контекстом с бесконечным вниманием.Leave No Context Behind: Efficient Infinite Context Transformers with
Infini-attention
Данная работа представляет эффективный метод масштабирования моделей на основе трансформеров (LLM) для обработки входных данных бесконечной длины с ограниченным объемом памяти и вычислений. Ключевым компонентом в нашем предложенном подходе является новая техника внимания под названием Infini-attention. Infini-attention включает сжимающую память в обычный механизм внимания и включает как маскированное локальное внимание, так и механизмы долгосрочного линейного внимания в одном блоке трансформера. Мы демонстрируем эффективность нашего подхода на бенчмарках моделирования языка с длинным контекстом, задачах извлечения блока контекста длиной 1M символов и задачах суммирования книги длиной 500K символов с использованием моделей LLM объемом 1B и 8B. Наш подход вводит минимальные ограниченные параметры памяти и обеспечивает быструю потоковую инференцию для LLM.