ByteFlow: 토크나이저 없이 적응형 바이트 압축을 통한 언어 모델링
ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer
March 3, 2026
저자: Chunyuan Deng, Sanket Lokegaonkar, Colin Lockard, Besnik Fetahu, Nasser Zalmout, Xian Li
cs.AI
초록
현대 언어 모델은 여전히 고정된 사전 정의 서브워드 토크나이제이션에 의존합니다. 토크나이저가 한 번 훈련되면 언어 모델은 이 고정된 세분화 수준에서만 작동할 수 있으며, 이는 강력한 추론 모델에서도 취약하고 직관에 반하는 동작을 초래하는 경우가 많습니다. 본 논문에서는 토크나이저를 완전히 제거하고 모델이 원시 바이트 스트림을 의미론적으로 의미 있는 단위로 자체 분할하도록 하는 새로운 계층적 아키텍처인 ByteFlow Net을 소개합니다. ByteFlow Net은 잠재 표현의 코딩률을 기반으로 압축 주도 분할을 수행하며, Top-K 선택을 통해 정적 계산 그래프를 유지하면서 적응형 경계를 생성합니다. 인간이 설계한 귀납적 편향에 의존하는 취약한 휴리스틱을 사용하는 기존의 자체 토크나이징 방법과 달리, ByteFlow Net은 내부 표현의 세분화 정도를 입력 자체에 맞춰 조정합니다. 실험 결과, 이 압축 기반 청킹 전략은 상당한 성능 향상을 가져오며, ByteFlow Net이 BPE 기반 Transformer 및 기존 바이트 수준 아키텍처를 모두 능가하는 것으로 나타났습니다. 이러한 결과는 종단간 토크나이저 없는 모델링이 실현 가능할 뿐만 아니라 더 효과적임을 시사하며, 더욱 적응적이고 정보에 기반한 언어 모델로 나아가는 길을 열어줍니다.
English
Modern language models still rely on fixed, pre-defined subword tokenizations. Once a tokenizer is trained, the LM can only operate at this fixed level of granularity, which often leads to brittle and counterintuitive behaviors even in otherwise strong reasoning models. We introduce ByteFlow Net, a new hierarchical architecture that removes tokenizers entirely and instead enables models to learn their own segmentation of raw byte streams into semantically meaningful units. ByteFlow Net performs compression-driven segmentation based on the coding rate of latent representations, yielding adaptive boundaries while preserving a static computation graph via Top-K selection. Unlike prior self-tokenizing methods that depend on brittle heuristics with human-designed inductive biases, ByteFlow Net adapts its internal representation granularity to the input itself. Experiments demonstrate that this compression-based chunking strategy yields substantial performance gains, with ByteFlow Net outperforming both BPE-based Transformers and previous byte-level architectures. These results suggest that end-to-end, tokenizer-free modeling is not only feasible but also more effective, opening a path toward more adaptive and information-grounded language models.