TokDrift : Quand les LLM parlent en sous-mots mais que le code parle en grammaire
TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar
October 16, 2025
papers.authors: Yinxi Li, Yuntian Deng, Pengyu Nie
cs.AI
papers.abstract
Les grands modèles de langage (LLM) pour le code reposent sur des tokeniseurs sous-mots, tels que l'encodage par paires d'octets (BPE), appris à partir d'un mélange de texte en langage naturel et de code de langage de programmation, mais guidés par des statistiques plutôt que par la grammaire. En conséquence, des extraits de code sémantiquement identiques peuvent être tokenisés différemment en fonction de facteurs superficiels tels que les espaces blancs ou la dénomination des identifiants. Pour mesurer l'impact de ce désalignement, nous introduisons TokDrift, un cadre qui applique des règles de réécriture préservant la sémantique pour créer des variantes de code différant uniquement par la tokenisation. À travers neuf LLM pour le code, y compris des modèles de grande taille avec plus de 30 milliards de paramètres, même des changements mineurs de formatage peuvent provoquer des variations substantielles dans le comportement du modèle. Une analyse couche par couche montre que le problème trouve son origine dans les premières couches d'embedding, où la segmentation en sous-mots échoue à capturer les limites des tokens grammaticaux. Nos résultats identifient la tokenisation désalignée comme un obstacle caché à la compréhension et à la génération fiable du code, soulignant la nécessité d'une tokenisation consciente de la grammaire pour les futurs LLM pour le code.
English
Large language models (LLMs) for code rely on subword tokenizers, such as
byte-pair encoding (BPE), learned from mixed natural language text and
programming language code but driven by statistics rather than grammar. As a
result, semantically identical code snippets can be tokenized differently
depending on superficial factors such as whitespace or identifier naming. To
measure the impact of this misalignment, we introduce TokDrift, a framework
that applies semantic-preserving rewrite rules to create code variants
differing only in tokenization. Across nine code LLMs, including large ones
with over 30B parameters, even minor formatting changes can cause substantial
shifts in model behavior. Layer-wise analysis shows that the issue originates
in early embeddings, where subword segmentation fails to capture grammar token
boundaries. Our findings identify misaligned tokenization as a hidden obstacle
to reliable code understanding and generation, highlighting the need for
grammar-aware tokenization for future code LLMs.