T-FREE: Tokenizer-Vrije Generatieve LLM's via Sparse Representaties voor Geheugenefficiënte Embeddings
T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings
June 27, 2024
Auteurs: Björn Deiseroth, Manuel Brack, Patrick Schramowski, Kristian Kersting, Samuel Weinbach
cs.AI
Samenvatting
Tokenizers zijn cruciaal voor het coderen van informatie in Large Language Models, maar hun ontwikkeling is recentelijk gestagneerd en ze bevatten inherente zwaktes. Belangrijke beperkingen zijn onder meer computationele overhead, inefficiënt gebruik van vocabulaire en onnodig grote embedding- en head-lagen. Daarnaast is hun prestaties bevooroordeeld ten opzichte van een referentiecorpus, wat leidt tot verminderde effectiviteit voor ondervertegenwoordigde talen.
Om deze problemen te verhelpen, stellen we T-FREE voor, dat woorden direct embedt via sparse activatiepatronen over karaktertriplets en geen referentiecorpus vereist. T-FREE benut inherent morfologische overeenkomsten en maakt een sterke compressie van embedding-lagen mogelijk. In onze uitgebreide experimentele evaluatie behalen we competitieve downstreamprestaties met een parameterreductie van meer dan 85% op deze lagen. Bovendien toont T-FREE significante verbeteringen in cross-linguale transfer learning.
English
Tokenizers are crucial for encoding information in Large Language Models, but
their development has recently stagnated, and they contain inherent weaknesses.
Major limitations include computational overhead, ineffective vocabulary use,
and unnecessarily large embedding and head layers. Additionally, their
performance is biased towards a reference corpus, leading to reduced
effectiveness for underrepresented languages.
To remedy these issues, we propose T-FREE, which directly embeds words
through sparse activation patterns over character triplets, and does not
require a reference corpus. T-FREE inherently exploits morphological
similarities and allows for strong compression of embedding layers. In our
exhaustive experimental evaluation, we achieve competitive downstream
performance with a parameter reduction of more than 85% on these layers.
Further, T-FREE shows significant improvements in cross-lingual transfer
learning.