Tokenizzazione insufficiente: la maledizione della tokenizzazione
Tokenization Falling Short: The Curse of Tokenization
June 17, 2024
Autori: Yekun Chai, Yewei Fang, Qiwei Peng, Xuhong Li
cs.AI
Abstract
I modelli linguistici tipicamente tokenizzano il testo grezzo in sequenze di identificatori di sottoparole provenienti da un vocabolario predefinito, un processo intrinsecamente sensibile a errori tipografici, variazioni di lunghezza e largamente inconsapevole della struttura interna dei token - problematiche che definiamo la maledizione della tokenizzazione. In questo studio, approfondiamo questi inconvenienti e dimostriamo che i grandi modelli linguistici (LLM) rimangono suscettibili a tali problemi. Questo studio indaga sistematicamente queste sfide e il loro impatto sugli LLM attraverso tre domande di ricerca critiche: (1) risoluzione di problemi complessi, (2) analisi della struttura dei token e (3) resilienza alle variazioni tipografiche. Le nostre scoperte rivelano che il ridimensionamento dei parametri del modello può mitigare il problema della tokenizzazione; tuttavia, gli LLM continuano a soffrire di bias indotti da errori di battitura e altre variazioni nel formato del testo. I nostri esperimenti mostrano che la regolarizzazione delle sottoparole, come il BPE-dropout, può mitigare questo problema. Rilasceremo il nostro codice e i dati per facilitare ulteriori ricerche.
English
Language models typically tokenize raw text into sequences of subword
identifiers from a predefined vocabulary, a process inherently sensitive to
typographical errors, length variations, and largely oblivious to the internal
structure of tokens-issues we term the curse of tokenization. In this study, we
delve into these drawbacks and demonstrate that large language models (LLMs)
remain susceptible to these problems. This study systematically investigates
these challenges and their impact on LLMs through three critical research
questions: (1) complex problem solving, (2) token structure probing, and (3)
resilience to typographical variation. Our findings reveal that scaling model
parameters can mitigate the issue of tokenization; however, LLMs still suffer
from biases induced by typos and other text format variations. Our experiments
show that subword regularization such as BPE-dropout can mitigate this issue.
We will release our code and data to facilitate further research.