ChatPaper.aiChatPaper

Линейные трансформеры с обучаемыми функциями ядра являются лучшими моделями в контексте

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

February 16, 2024
Авторы: Yaroslav Aksenov, Nikita Balagansky, Sofia Maria Lo Cicero Vaina, Boris Shaposhnikov, Alexey Gorbatovski, Daniil Gavrilov
cs.AI

Аннотация

Продвижение границ субквадратичных архитектур для языковых моделей (LM) имеет решающее значение в быстро развивающейся области обработки естественного языка. Современные инновации, включая модели пространства состояний, изначально были встречены с энтузиазмом за превосходство над Transformer в задачах языкового моделирования. Однако эти модели выявили недостатки в ключевых способностях к обучению в контексте (In-Context Learning) — области, где Transformer традиционно демонстрирует превосходство. Модель Based появилась как гибридное решение, объединяющее линейный Transformer с ядром, вдохновлённым разложением Тейлора экспоненциальных функций, дополненным свёрточными сетями. Сохраняя мастерство Transformer в работе с контекстом, она стала серьёзным конкурентом в этой области. В нашей работе мы представляем простое, но элегантное изменение ядра Based, которое усиливает его способности к обучению в контексте, оценённые с помощью задачи Multi-Query Associative Recall, а также общий процесс языкового моделирования, что продемонстрировано на наборе данных Pile.
English
Advancing the frontier of subquadratic architectures for Language Models (LMs) is crucial in the rapidly evolving field of natural language processing. Current innovations, including State Space Models, were initially celebrated for surpassing Transformer performance on language modeling tasks. However, these models have revealed deficiencies in essential In-Context Learning capabilities - a domain where the Transformer traditionally shines. The Based model emerged as a hybrid solution, blending a Linear Transformer with a kernel inspired by the Taylor expansion of exponential functions, augmented by convolutional networks. Mirroring the Transformer's in-context adeptness, it became a strong contender in the field. In our work, we present a singular, elegant alteration to the Based kernel that amplifies its In-Context Learning abilities evaluated with the Multi-Query Associative Recall task and overall language modeling process, as demonstrated on the Pile dataset.

Summary

AI-Generated Summary

PDF823December 15, 2024