T-FREE: Modelli Linguistici Generativi Senza Tokenizer tramite Rappresentazioni Sparse per Embedding Efficienti in Memoria
T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings
June 27, 2024
Autori: Björn Deiseroth, Manuel Brack, Patrick Schramowski, Kristian Kersting, Samuel Weinbach
cs.AI
Abstract
I tokenizer sono cruciali per codificare le informazioni nei Large Language Model, ma il loro sviluppo ha recentemente subito una stagnazione e presentano debolezze intrinseche. Le principali limitazioni includono l'overhead computazionale, l'uso inefficace del vocabolario e gli strati di embedding e di testa eccessivamente grandi. Inoltre, le loro prestazioni sono influenzate da un corpus di riferimento, portando a una ridotta efficacia per le lingue sottorappresentate.
Per rimediare a questi problemi, proponiamo T-FREE, che incorpora direttamente le parole attraverso pattern di attivazione sparsi su triplette di caratteri e non richiede un corpus di riferimento. T-FREE sfrutta intrinsecamente le similarità morfologiche e consente una forte compressione degli strati di embedding. Nella nostra valutazione sperimentale esaustiva, otteniamo prestazioni competitive nelle attività downstream con una riduzione dei parametri superiore all'85% su questi strati. Inoltre, T-FREE mostra miglioramenti significativi nell'apprendimento trasferito cross-linguale.
English
Tokenizers are crucial for encoding information in Large Language Models, but
their development has recently stagnated, and they contain inherent weaknesses.
Major limitations include computational overhead, ineffective vocabulary use,
and unnecessarily large embedding and head layers. Additionally, their
performance is biased towards a reference corpus, leading to reduced
effectiveness for underrepresented languages.
To remedy these issues, we propose T-FREE, which directly embeds words
through sparse activation patterns over character triplets, and does not
require a reference corpus. T-FREE inherently exploits morphological
similarities and allows for strong compression of embedding layers. In our
exhaustive experimental evaluation, we achieve competitive downstream
performance with a parameter reduction of more than 85% on these layers.
Further, T-FREE shows significant improvements in cross-lingual transfer
learning.