ChatPaper.aiChatPaper

Tokenización que se queda corta: La maldición de la tokenización

Tokenization Falling Short: The Curse of Tokenization

June 17, 2024
Autores: Yekun Chai, Yewei Fang, Qiwei Peng, Xuhong Li
cs.AI

Resumen

Los modelos de lenguaje suelen tokenizar texto crudo en secuencias de identificadores de subpalabras a partir de un vocabulario predefinido, un proceso intrínsecamente sensible a errores tipográficos, variaciones de longitud y en gran medida ajeno a la estructura interna de los tokens, problemas que denominamos la maldición de la tokenización. En este estudio, profundizamos en estas desventajas y demostramos que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) siguen siendo susceptibles a estos problemas. Este estudio investiga sistemáticamente estos desafíos y su impacto en los LLMs a través de tres preguntas de investigación críticas: (1) resolución de problemas complejos, (2) sondeo de la estructura de los tokens, y (3) resiliencia a variaciones tipográficas. Nuestros hallazgos revelan que escalar los parámetros del modelo puede mitigar el problema de la tokenización; sin embargo, los LLMs aún sufren de sesgos inducidos por errores tipográficos y otras variaciones en el formato del texto. Nuestros experimentos muestran que la regularización de subpalabras, como BPE-dropout, puede mitigar este problema. Liberaremos nuestro código y datos para facilitar investigaciones futuras.
English
Language models typically tokenize raw text into sequences of subword identifiers from a predefined vocabulary, a process inherently sensitive to typographical errors, length variations, and largely oblivious to the internal structure of tokens-issues we term the curse of tokenization. In this study, we delve into these drawbacks and demonstrate that large language models (LLMs) remain susceptible to these problems. This study systematically investigates these challenges and their impact on LLMs through three critical research questions: (1) complex problem solving, (2) token structure probing, and (3) resilience to typographical variation. Our findings reveal that scaling model parameters can mitigate the issue of tokenization; however, LLMs still suffer from biases induced by typos and other text format variations. Our experiments show that subword regularization such as BPE-dropout can mitigate this issue. We will release our code and data to facilitate further research.

Summary

AI-Generated Summary

PDF161December 4, 2024