ChatPaper.aiChatPaper

T-FREE:スパース表現によるメモリ効率の高い埋め込みのためのトークナイザー不要な生成型大規模言語モデル

T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings

June 27, 2024
著者: Björn Deiseroth, Manuel Brack, Patrick Schramowski, Kristian Kersting, Samuel Weinbach
cs.AI

要旨

トークナイザーは大規模言語モデルにおける情報の符号化に不可欠ですが、その開発は近年停滞しており、本質的な弱点を抱えています。主な制約として、計算オーバーヘッド、語彙の非効率的な使用、不必要に大きな埋め込み層とヘッド層が挙げられます。さらに、その性能は参照コーパスに偏っており、低資源言語に対する有効性が低下しています。 これらの問題を解決するため、我々はT-FREEを提案します。T-FREEは文字トリプレットに対するスパースな活性化パターンを通じて単語を直接埋め込み、参照コーパスを必要としません。T-FREEは形態論的類似性を本質的に活用し、埋め込み層の強力な圧縮を可能にします。我々の徹底的な実験的評価では、これらの層において85%以上のパラメータ削減を達成しつつ、競争力のある下流タスク性能を実現しました。さらに、T-FREEはクロスリンガルトランスファー学習において大幅な改善を示しています。
English
Tokenizers are crucial for encoding information in Large Language Models, but their development has recently stagnated, and they contain inherent weaknesses. Major limitations include computational overhead, ineffective vocabulary use, and unnecessarily large embedding and head layers. Additionally, their performance is biased towards a reference corpus, leading to reduced effectiveness for underrepresented languages. To remedy these issues, we propose T-FREE, which directly embeds words through sparse activation patterns over character triplets, and does not require a reference corpus. T-FREE inherently exploits morphological similarities and allows for strong compression of embedding layers. In our exhaustive experimental evaluation, we achieve competitive downstream performance with a parameter reduction of more than 85% on these layers. Further, T-FREE shows significant improvements in cross-lingual transfer learning.

Summary

AI-Generated Summary

PDF115November 29, 2024