ChatPaper.aiChatPaper

Lineare Transformer mit lernbaren Kernfunktionen sind bessere In-Context-Modelle

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

February 16, 2024
papers.authors: Yaroslav Aksenov, Nikita Balagansky, Sofia Maria Lo Cicero Vaina, Boris Shaposhnikov, Alexey Gorbatovski, Daniil Gavrilov
cs.AI

papers.abstract

Die Weiterentwicklung subquadratischer Architekturen für Sprachmodelle (LMs) ist im sich rasant entwickelnden Bereich der natürlichen Sprachverarbeitung von entscheidender Bedeutung. Aktuelle Innovationen, einschließlich State-Space-Modelle, wurden zunächst dafür gefeiert, dass sie die Leistung von Transformern bei Sprachmodellierungsaufgaben übertrafen. Diese Modelle haben jedoch Defizite in wesentlichen Fähigkeiten des In-Context-Lernens offenbart – einem Bereich, in dem der Transformer traditionell glänzt. Das Based-Modell entstand als hybride Lösung, die einen linearen Transformer mit einem Kernel kombinierte, der von der Taylor-Entwicklung exponentieller Funktionen inspiriert war und durch Faltungsnetzwerke erweitert wurde. Indem es die Fähigkeit des Transformers zum In-Context-Lernen widerspiegelte, wurde es zu einem starken Konkurrenten in diesem Bereich. In unserer Arbeit präsentieren wir eine einzige, elegante Modifikation des Based-Kernels, die seine Fähigkeiten im In-Context-Lernen verbessert, bewertet anhand der Multi-Query Associative Recall-Aufgabe und des gesamten Sprachmodellierungsprozesses, wie am Pile-Datensatz demonstriert.
English
Advancing the frontier of subquadratic architectures for Language Models (LMs) is crucial in the rapidly evolving field of natural language processing. Current innovations, including State Space Models, were initially celebrated for surpassing Transformer performance on language modeling tasks. However, these models have revealed deficiencies in essential In-Context Learning capabilities - a domain where the Transformer traditionally shines. The Based model emerged as a hybrid solution, blending a Linear Transformer with a kernel inspired by the Taylor expansion of exponential functions, augmented by convolutional networks. Mirroring the Transformer's in-context adeptness, it became a strong contender in the field. In our work, we present a singular, elegant alteration to the Based kernel that amplifies its In-Context Learning abilities evaluated with the Multi-Query Associative Recall task and overall language modeling process, as demonstrated on the Pile dataset.
PDF823December 15, 2024