Lineare Transformer mit lernbaren Kernfunktionen sind bessere In-Context-ModelleLinear Transformers with Learnable Kernel Functions are Better
In-Context Models
Die Weiterentwicklung subquadratischer Architekturen für Sprachmodelle (LMs) ist im sich rasant entwickelnden Bereich der natürlichen Sprachverarbeitung von entscheidender Bedeutung. Aktuelle Innovationen, einschließlich State-Space-Modelle, wurden zunächst dafür gefeiert, dass sie die Leistung von Transformern bei Sprachmodellierungsaufgaben übertrafen. Diese Modelle haben jedoch Defizite in wesentlichen Fähigkeiten des In-Context-Lernens offenbart – einem Bereich, in dem der Transformer traditionell glänzt. Das Based-Modell entstand als hybride Lösung, die einen linearen Transformer mit einem Kernel kombinierte, der von der Taylor-Entwicklung exponentieller Funktionen inspiriert war und durch Faltungsnetzwerke erweitert wurde. Indem es die Fähigkeit des Transformers zum In-Context-Lernen widerspiegelte, wurde es zu einem starken Konkurrenten in diesem Bereich. In unserer Arbeit präsentieren wir eine einzige, elegante Modifikation des Based-Kernels, die seine Fähigkeiten im In-Context-Lernen verbessert, bewertet anhand der Multi-Query Associative Recall-Aufgabe und des gesamten Sprachmodellierungsprozesses, wie am Pile-Datensatz demonstriert.