ChatPaper.aiChatPaper

Erreichen von Tokenizer-Flexibilität in Sprachmodellen durch heuristische Anpassung und Supertoken-Lernen

Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning

May 14, 2025
Autoren: Shaurya Sharthak, Vinayak Pahalwan, Adithya Kamath, Adarsh Shirawalmath
cs.AI

Zusammenfassung

Vortrainierte Sprachmodelle (LLMs) sind oft durch ihre festen Tokenisierungsschemata eingeschränkt, was zu Ineffizienzen und Leistungsbeschränkungen führt, insbesondere bei mehrsprachigen oder spezialisierten Anwendungen. Diese Tokenizer-Abhängigkeit stellt erhebliche Herausforderungen dar. Standardmethoden, um dies zu überwinden, erfordern oft prohibitiv hohe Rechenressourcen. Obwohl der Tokenizer-Austausch mit heuristischer Initialisierung darauf abzielt, diese Belastung zu verringern, benötigen bestehende Methoden oft umfangreiche Nachjustierungen und können dennoch semantische Nuancen nicht vollständig bewahren oder die zugrunde liegenden Kompressionsineffizienzen nicht angemessen adressieren. Unser Framework führt zwei Innovationen ein: erstens, TokenAdapt, eine modellagnostische Methode zur Tokenizer-Transplantation, und zweitens, neuartiges Pre-Tokenization-Lernen für Multi-Wort-Supertokens, um die Kompression zu verbessern und die Fragmentierung zu reduzieren. TokenAdapt initialisiert neue, eindeutige Token-Embeddings durch eine hybride Heuristik, die zwei Methoden kombiniert: eine lokale Schätzung basierend auf Subwort-Zerlegung unter Verwendung des alten Tokenizers und eine globale Schätzung unter Nutzung der top-k semantisch ähnlichen Tokens aus dem ursprünglichen Vokabular. Diese Methodik zielt darauf ab, die Semantik zu bewahren und gleichzeitig den Nachjustierungsbedarf erheblich zu minimieren. Empirische Untersuchungen bestätigen beide Beiträge: Die Transplantationsheuristik initialisiert erfolgreich eindeutige Tokens und übertrifft deutlich konventionelle Baselines sowie ausgefeilte Methoden wie TransTokenizer und ReTok, während unsere Supertokens bemerkenswerte Kompressionsgewinne erzielen. Unsere Zero-Shot-Perplexity-Ergebnisse zeigen, dass die hybride Initialisierung von TokenAdapt durchweg niedrigere Perplexity-Verhältnisse im Vergleich zu den ReTok- und TransTokenizer-Baselines über verschiedene Basismodelle und neu trainierte Ziel-Tokenizer hinweg liefert. TokenAdapt reduzierte typischerweise das Gesamt-Perplexity-Verhältnis im Vergleich zu ReTok erheblich und erzielte mindestens eine 2-fache Verbesserung in diesen aggregierten Scores.
English
Pretrained language models (LLMs) are often constrained by their fixed tokenization schemes, leading to inefficiencies and performance limitations, particularly for multilingual or specialized applications. This tokenizer lock-in presents significant challenges. standard methods to overcome this often require prohibitive computational resources. Although tokenizer replacement with heuristic initialization aims to reduce this burden, existing methods often require exhaustive residual fine-tuning and still may not fully preserve semantic nuances or adequately address the underlying compression inefficiencies. Our framework introduces two innovations: first, Tokenadapt, a model-agnostic tokenizer transplantation method, and second, novel pre-tokenization learning for multi-word Supertokens to enhance compression and reduce fragmentation. Tokenadapt initializes new unique token embeddings via a hybrid heuristic that combines two methods: a local estimate based on subword decomposition using the old tokenizer, and a global estimate utilizing the top-k semantically similar tokens from the original vocabulary. This methodology aims to preserve semantics while significantly minimizing retraining requirements. Empirical investigations validate both contributions: the transplantation heuristic successfully initializes unique tokens, markedly outperforming conventional baselines and sophisticated methods including Transtokenizer and ReTok, while our Supertokens achieve notable compression gains. Our zero-shot perplexity results demonstrate that the TokenAdapt hybrid initialization consistently yields lower perplexity ratios compared to both ReTok and TransTokenizer baselines across different base models and newly trained target tokenizers. TokenAdapt typically reduced the overall perplexity ratio significantly compared to ReTok, yielding at least a 2-fold improvement in these aggregate scores.

Summary

AI-Generated Summary

PDF92May 16, 2025