Lineaire Transformers met leerbare kernfuncties zijn betere in-context modellen
Linear Transformers with Learnable Kernel Functions are Better In-Context Models
February 16, 2024
Auteurs: Yaroslav Aksenov, Nikita Balagansky, Sofia Maria Lo Cicero Vaina, Boris Shaposhnikov, Alexey Gorbatovski, Daniil Gavrilov
cs.AI
Samenvatting
Het bevorderen van de grens van subkwadratische architecturen voor Taalmodellen (LMs) is cruciaal in het snel evoluerende veld van natuurlijke taalverwerking. Huidige innovaties, waaronder State Space Models, werden aanvankelijk geprezen omdat ze de prestaties van Transformers overtroffen bij taken voor taalmodellering. Deze modellen hebben echter tekortkomingen aan het licht gebracht in essentiële In-Context Leervaardigheden - een domein waarin de Transformer traditioneel uitblinkt. Het Based-model ontstond als een hybride oplossing, waarbij een Lineaire Transformer werd gecombineerd met een kernel geïnspireerd door de Taylor-reeks van exponentiële functies, versterkt door convolutionele netwerken. Door de in-context vaardigheid van de Transformer na te bootsen, werd het een sterke kandidaat in het veld. In ons werk presenteren we een enkele, elegante aanpassing aan de Based-kernel die de In-Context Leervaardigheden versterkt, geëvalueerd met de Multi-Query Associative Recall-taak en het algehele taalmodelleringsproces, zoals gedemonstreerd op de Pile-dataset.
English
Advancing the frontier of subquadratic architectures for Language Models
(LMs) is crucial in the rapidly evolving field of natural language processing.
Current innovations, including State Space Models, were initially celebrated
for surpassing Transformer performance on language modeling tasks. However,
these models have revealed deficiencies in essential In-Context Learning
capabilities - a domain where the Transformer traditionally shines. The Based
model emerged as a hybrid solution, blending a Linear Transformer with a kernel
inspired by the Taylor expansion of exponential functions, augmented by
convolutional networks. Mirroring the Transformer's in-context adeptness, it
became a strong contender in the field. In our work, we present a singular,
elegant alteration to the Based kernel that amplifies its In-Context Learning
abilities evaluated with the Multi-Query Associative Recall task and overall
language modeling process, as demonstrated on the Pile dataset.