ChatPaper.aiChatPaper

Tokenisierung reicht nicht aus: Der Fluch der Tokenisierung

Tokenization Falling Short: The Curse of Tokenization

June 17, 2024
papers.authors: Yekun Chai, Yewei Fang, Qiwei Peng, Xuhong Li
cs.AI

papers.abstract

Sprachmodelle unterteilen rohen Text in der Regel in Sequenzen von Teilwortidentifikatoren aus einem vordefinierten Vokabular, ein Prozess, der inhärent empfindlich auf typografische Fehler, Längenvariationen und weitgehend unempfindlich gegenüber der internen Struktur von Tokens ist - Probleme, die wir als das Fluch der Tokenisierung bezeichnen. In dieser Studie gehen wir auf diese Nachteile ein und zeigen, dass große Sprachmodelle (LLMs) anfällig für diese Probleme bleiben. Diese Studie untersucht systematisch diese Herausforderungen und ihren Einfluss auf LLMs anhand von drei zentralen Forschungsfragen: (1) komplexe Problemlösung, (2) Untersuchung der Tokenstruktur und (3) Widerstandsfähigkeit gegen typografische Variationen. Unsere Ergebnisse zeigen, dass das Skalieren von Modellparametern das Problem der Tokenisierung mildern kann; dennoch leiden LLMs weiterhin unter durch Tippfehler und andere Textformatvariationen induzierten Verzerrungen. Unsere Experimente zeigen, dass die Unterstützung von Teilwörtern, wie z.B. BPE-Dropout, dieses Problem mildern kann. Wir werden unseren Code und unsere Daten veröffentlichen, um weitere Forschung zu erleichtern.
English
Language models typically tokenize raw text into sequences of subword identifiers from a predefined vocabulary, a process inherently sensitive to typographical errors, length variations, and largely oblivious to the internal structure of tokens-issues we term the curse of tokenization. In this study, we delve into these drawbacks and demonstrate that large language models (LLMs) remain susceptible to these problems. This study systematically investigates these challenges and their impact on LLMs through three critical research questions: (1) complex problem solving, (2) token structure probing, and (3) resilience to typographical variation. Our findings reveal that scaling model parameters can mitigate the issue of tokenization; however, LLMs still suffer from biases induced by typos and other text format variations. Our experiments show that subword regularization such as BPE-dropout can mitigate this issue. We will release our code and data to facilitate further research.
PDF161December 4, 2024