TokDrift : Quand les LLM parlent en sous-mots mais que le code parle en grammaire

papers.abstract

Les grands modèles de langage (LLM) pour le code reposent sur des tokeniseurs sous-mots, tels que l'encodage par paires d'octets (BPE), appris à partir d'un mélange de texte en langage naturel et de code de langage de programmation, mais guidés par des statistiques plutôt que par la grammaire. En conséquence, des extraits de code sémantiquement identiques peuvent être tokenisés différemment en fonction de facteurs superficiels tels que les espaces blancs ou la dénomination des identifiants. Pour mesurer l'impact de ce désalignement, nous introduisons TokDrift, un cadre qui applique des règles de réécriture préservant la sémantique pour créer des variantes de code différant uniquement par la tokenisation. À travers neuf LLM pour le code, y compris des modèles de grande taille avec plus de 30 milliards de paramètres, même des changements mineurs de formatage peuvent provoquer des variations substantielles dans le comportement du modèle. Une analyse couche par couche montre que le problème trouve son origine dans les premières couches d'embedding, où la segmentation en sous-mots échoue à capturer les limites des tokens grammaticaux. Nos résultats identifient la tokenisation désalignée comme un obstacle caché à la compréhension et à la génération fiable du code, soulignant la nécessité d'une tokenisation consciente de la grammaire pour les futurs LLM pour le code.

English

Large language models (LLMs) for code rely on subword tokenizers, such as byte-pair encoding (BPE), learned from mixed natural language text and programming language code but driven by statistics rather than grammar. As a result, semantically identical code snippets can be tokenized differently depending on superficial factors such as whitespace or identifier naming. To measure the impact of this misalignment, we introduce TokDrift, a framework that applies semantic-preserving rewrite rules to create code variants differing only in tokenization. Across nine code LLMs, including large ones with over 30B parameters, even minor formatting changes can cause substantial shifts in model behavior. Layer-wise analysis shows that the issue originates in early embeddings, where subword segmentation fails to capture grammar token boundaries. Our findings identify misaligned tokenization as a hidden obstacle to reliable code understanding and generation, highlighting the need for grammar-aware tokenization for future code LLMs.

TokDrift : Quand les LLM parlent en sous-mots mais que le code parle en grammaire

TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar

papers.abstract

Support