T-FREE: Modelos de Linguagem Generativos sem Tokenizador por meio de Representações Esparsas para Incorporações Eficientes de Memória
T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings
June 27, 2024
Autores: Björn Deiseroth, Manuel Brack, Patrick Schramowski, Kristian Kersting, Samuel Weinbach
cs.AI
Resumo
Os tokenizadores são cruciais para codificar informações em Modelos de Linguagem de Grande Escala, mas seu desenvolvimento recentemente estagnou e eles possuem fraquezas inerentes. As principais limitações incluem sobrecarga computacional, uso ineficaz de vocabulário e camadas de incorporação e cabeçalho desnecessariamente grandes. Além disso, seu desempenho é tendencioso em relação a um corpus de referência, o que leva a uma eficácia reduzida para idiomas sub-representados.
Para remediar esses problemas, propomos o T-FREE, que incorpora diretamente palavras por meio de padrões de ativação esparsos sobre tríades de caracteres e não requer um corpus de referência. O T-FREE explora inerentemente similaridades morfológicas e permite uma forte compressão das camadas de incorporação. Em nossa avaliação experimental exaustiva, alcançamos um desempenho competitivo downstream com uma redução de parâmetros de mais de 85 nessas camadas. Além disso, o T-FREE mostra melhorias significativas na aprendizagem de transferência entre idiomas.
English
Tokenizers are crucial for encoding information in Large Language Models, but
their development has recently stagnated, and they contain inherent weaknesses.
Major limitations include computational overhead, ineffective vocabulary use,
and unnecessarily large embedding and head layers. Additionally, their
performance is biased towards a reference corpus, leading to reduced
effectiveness for underrepresented languages.
To remedy these issues, we propose T-FREE, which directly embeds words
through sparse activation patterns over character triplets, and does not
require a reference corpus. T-FREE inherently exploits morphological
similarities and allows for strong compression of embedding layers. In our
exhaustive experimental evaluation, we achieve competitive downstream
performance with a parameter reduction of more than 85% on these layers.
Further, T-FREE shows significant improvements in cross-lingual transfer
learning.