ChatPaper.aiChatPaper

T-FREE: Modelos Generativos de Lenguaje sin Tokenizador mediante Representaciones Dispersas para Incrustaciones Eficientes en Memoria

T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings

June 27, 2024
Autores: Björn Deiseroth, Manuel Brack, Patrick Schramowski, Kristian Kersting, Samuel Weinbach
cs.AI

Resumen

Los tokenizadores son cruciales para codificar información en los Modelos de Lenguaje a Gran Escala, pero su desarrollo ha estancado recientemente y presentan debilidades inherentes. Las principales limitaciones incluyen sobrecarga computacional, uso ineficiente del vocabulario y capas de embeddings y cabezales innecesariamente grandes. Además, su rendimiento está sesgado hacia un corpus de referencia, lo que reduce su efectividad para lenguajes poco representados. Para abordar estos problemas, proponemos T-FREE, que incorpora palabras directamente mediante patrones de activación dispersa sobre tripletes de caracteres y no requiere un corpus de referencia. T-FREE aprovecha inherentemente las similitudes morfológicas y permite una fuerte compresión de las capas de embeddings. En nuestra exhaustiva evaluación experimental, logramos un rendimiento competitivo en tareas posteriores con una reducción de más del 85% en los parámetros de estas capas. Además, T-FREE muestra mejoras significativas en el aprendizaje por transferencia multilingüe.
English
Tokenizers are crucial for encoding information in Large Language Models, but their development has recently stagnated, and they contain inherent weaknesses. Major limitations include computational overhead, ineffective vocabulary use, and unnecessarily large embedding and head layers. Additionally, their performance is biased towards a reference corpus, leading to reduced effectiveness for underrepresented languages. To remedy these issues, we propose T-FREE, which directly embeds words through sparse activation patterns over character triplets, and does not require a reference corpus. T-FREE inherently exploits morphological similarities and allows for strong compression of embedding layers. In our exhaustive experimental evaluation, we achieve competitive downstream performance with a parameter reduction of more than 85% on these layers. Further, T-FREE shows significant improvements in cross-lingual transfer learning.

Summary

AI-Generated Summary

PDF115November 29, 2024