Линейные трансформеры с обучаемыми функциями ядра являются лучшими моделями в контекстеLinear Transformers with Learnable Kernel Functions are Better
In-Context Models
Продвижение границ субквадратичных архитектур для языковых моделей (LM) имеет решающее значение в быстро развивающейся области обработки естественного языка. Современные инновации, включая модели пространства состояний, изначально были встречены с энтузиазмом за превосходство над Transformer в задачах языкового моделирования. Однако эти модели выявили недостатки в ключевых способностях к обучению в контексте (In-Context Learning) — области, где Transformer традиционно демонстрирует превосходство. Модель Based появилась как гибридное решение, объединяющее линейный Transformer с ядром, вдохновлённым разложением Тейлора экспоненциальных функций, дополненным свёрточными сетями. Сохраняя мастерство Transformer в работе с контекстом, она стала серьёзным конкурентом в этой области. В нашей работе мы представляем простое, но элегантное изменение ядра Based, которое усиливает его способности к обучению в контексте, оценённые с помощью задачи Multi-Query Associative Recall, а также общий процесс языкового моделирования, что продемонстрировано на наборе данных Pile.