TokDrift: Wenn LLM in Subwörtern spricht, aber Code in Grammatik

papers.abstract

Große Sprachmodelle (LLMs) für Code basieren auf Subwort-Tokenizierern, wie beispielsweise Byte-Pair Encoding (BPE), die aus einer Mischung von natürlichem Text und Programmiersprachen-Code gelernt werden, jedoch eher durch Statistik als durch Grammatik gesteuert sind. Infolgedessen können semantisch identische Code-Snippets unterschiedlich tokenisiert werden, abhängig von oberflächlichen Faktoren wie Leerzeichen oder der Benennung von Identifikatoren. Um die Auswirkungen dieser Fehlausrichtung zu messen, führen wir TokDrift ein, ein Framework, das semantikerhaltende Umformungsregeln anwendet, um Code-Varianten zu erstellen, die sich nur in der Tokenisierung unterscheiden. Über neun Code-LLMs hinweg, darunter große Modelle mit über 30 Milliarden Parametern, können selbst geringfügige Formatierungsänderungen erhebliche Verschiebungen im Modellverhalten verursachen. Eine schichtenweise Analyse zeigt, dass das Problem in den frühen Embeddings entsteht, wo die Subwort-Segmentierung die Grenzen grammatikalischer Token nicht erfassen kann. Unsere Ergebnisse identifizieren die fehlausgerichtete Tokenisierung als ein verstecktes Hindernis für zuverlässiges Code-Verständnis und -Generierung und unterstreichen die Notwendigkeit einer grammatikbewussten Tokenisierung für zukünftige Code-LLMs.

English

Large language models (LLMs) for code rely on subword tokenizers, such as byte-pair encoding (BPE), learned from mixed natural language text and programming language code but driven by statistics rather than grammar. As a result, semantically identical code snippets can be tokenized differently depending on superficial factors such as whitespace or identifier naming. To measure the impact of this misalignment, we introduce TokDrift, a framework that applies semantic-preserving rewrite rules to create code variants differing only in tokenization. Across nine code LLMs, including large ones with over 30B parameters, even minor formatting changes can cause substantial shifts in model behavior. Layer-wise analysis shows that the issue originates in early embeddings, where subword segmentation fails to capture grammar token boundaries. Our findings identify misaligned tokenization as a hidden obstacle to reliable code understanding and generation, highlighting the need for grammar-aware tokenization for future code LLMs.

TokDrift: Wenn LLM in Subwörtern spricht, aber Code in Grammatik

TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar

papers.abstract

Support