T-FREE: Генеративные LLM без токенизатора через разреженные представления для эффективного использования памяти вложений
T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings
June 27, 2024
Авторы: Björn Deiseroth, Manuel Brack, Patrick Schramowski, Kristian Kersting, Samuel Weinbach
cs.AI
Аннотация
Токенизаторы являются ключевыми для кодирования информации в больших языковых моделях, однако их развитие недавно замедлилось, и они содержат врожденные недостатки. Основные ограничения включают вычислительные издержки, неэффективное использование словаря и излишне большие встроенные и головные слои. Кроме того, их производительность смещена в пользу опорного корпуса, что приводит к снижению эффективности для недостаточно представленных языков.
Для устранения этих проблем мы предлагаем T-FREE, который непосредственно встраивает слова через разреженные активационные шаблоны над тройками символов и не требует опорного корпуса. T-FREE врожденным образом использует морфологические сходства и позволяет сильно сжимать встроенные слои. В нашем исчерпывающем экспериментальном исследовании мы достигаем конкурентоспособной производительности на последующих этапах сокращения параметров более чем на 85% на этих слоях. Кроме того, T-FREE показывает значительные улучшения в межъязыковом обучении передачи.
English
Tokenizers are crucial for encoding information in Large Language Models, but
their development has recently stagnated, and they contain inherent weaknesses.
Major limitations include computational overhead, ineffective vocabulary use,
and unnecessarily large embedding and head layers. Additionally, their
performance is biased towards a reference corpus, leading to reduced
effectiveness for underrepresented languages.
To remedy these issues, we propose T-FREE, which directly embeds words
through sparse activation patterns over character triplets, and does not
require a reference corpus. T-FREE inherently exploits morphological
similarities and allows for strong compression of embedding layers. In our
exhaustive experimental evaluation, we achieve competitive downstream
performance with a parameter reduction of more than 85% on these layers.
Further, T-FREE shows significant improvements in cross-lingual transfer
learning.Summary
AI-Generated Summary