ByteFlow: Sprachmodellierung durch adaptive Byte-Kompression ohne Tokenizer

Zusammenfassung

Moderne Sprachmodelle verlassen sich nach wie vor auf feste, vordefinierte Subwort-Tokenisierungen. Sobald ein Tokenizer trainiert ist, kann das Sprachmodell nur noch auf dieser festen Granularitätsebene operieren, was oft zu spröden und kontraintuitiven Verhaltensweisen führt – selbst bei ansonsten leistungsstarken Reasoning-Modellen. Wir stellen ByteFlow Net vor, eine neue hierarchische Architektur, die Tokenizer vollständig entfernt und es Modellen stattdessen ermöglicht, ihre eigene Segmentierung von Rohdaten-Byte-Strömen in semantisch bedeutungsvolle Einheiten zu erlernen. ByteFlow Net führt eine kompressionsgesteuerte Segmentierung auf Basis der Coderate latenter Repräsentationen durch, was adaptive Grenzen ergibt und gleichzeitig einen statischen Berechnungsgraphen via Top-K-Auswahl bewahrt. Im Gegensatz zu früheren Methoden zur Selbst-Tokenisierung, die auf spröden Heuristiken mit menschlich entworfenen induktiven Verzerrungen basieren, passt ByteFlow Net die Granularität seiner internen Repräsentation an die Eingabe selbst an. Experimente belegen, dass diese kompressionsbasierte Chunking-Strategie erhebliche Leistungssteigerungen bringt; ByteFlow Net übertrifft sowohl BPE-basierte Transformer als auch frühere Byte-Level-Architekturen. Diese Ergebnisse legen nahe, dass end-to-end, tokenizerfreie Modellierung nicht nur machbar, sondern auch effektiver ist und einen Weg zu adaptiveren und informationsfundierteren Sprachmodellen eröffnet.

English

Modern language models still rely on fixed, pre-defined subword tokenizations. Once a tokenizer is trained, the LM can only operate at this fixed level of granularity, which often leads to brittle and counterintuitive behaviors even in otherwise strong reasoning models. We introduce ByteFlow Net, a new hierarchical architecture that removes tokenizers entirely and instead enables models to learn their own segmentation of raw byte streams into semantically meaningful units. ByteFlow Net performs compression-driven segmentation based on the coding rate of latent representations, yielding adaptive boundaries while preserving a static computation graph via Top-K selection. Unlike prior self-tokenizing methods that depend on brittle heuristics with human-designed inductive biases, ByteFlow Net adapts its internal representation granularity to the input itself. Experiments demonstrate that this compression-based chunking strategy yields substantial performance gains, with ByteFlow Net outperforming both BPE-based Transformers and previous byte-level architectures. These results suggest that end-to-end, tokenizer-free modeling is not only feasible but also more effective, opening a path toward more adaptive and information-grounded language models.

ByteFlow: Sprachmodellierung durch adaptive Byte-Kompression ohne Tokenizer

ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

Zusammenfassung

Support