바이트에서 아이디어로: 자기회귀 U-Net을 활용한 언어 모델링
From Bytes to Ideas: Language Modeling with Autoregressive U-Nets
June 17, 2025
저자: Mathurin Videau, Badr Youbi Idrissi, Alessandro Leite, Marc Schoenauer, Olivier Teytaud, David Lopez-Paz
cs.AI
초록
토큰화는 입력 텍스트에 고정된 세분성을 부과하여, 언어 모델이 데이터를 처리하고 미래를 예측하는 방식을 고정시킵니다. 바이트 페어 인코딩(BPE)과 유사한 방식은 텍스트를 한 번 분할하고 정적 어휘 사전을 구축한 후, 모델이 그 선택에 고정되도록 합니다. 우리는 이러한 경직성을 완화하기 위해, 학습 과정에서 자체 토큰을 임베딩하는 방법을 학습하는 자기회귀적 U-Net을 도입합니다. 이 네트워크는 원시 바이트를 읽고, 이를 단어로 묶은 다음, 단어 쌍으로, 그리고 최대 4개의 단어로 묶어 시퀀스에 대한 다중 스케일 뷰를 제공합니다. 더 깊은 단계에서 모델은 더 먼 미래를 예측해야 하므로, 다음 몇 단어를 예측하는 데 초점을 맞추며, 더 깊은 단계는 광범위한 의미론적 패턴에 집중하고 초기 단계는 세부 사항을 처리합니다. 사전 학습 계산을 신중하게 조정하고 제어할 때, 얕은 계층 구조는 강력한 BPE 기준선과 동등한 성능을 보이며, 더 깊은 계층 구조는 유망한 추세를 보입니다. 토큰화가 이제 모델 내부에 존재하기 때문에, 동일한 시스템이 문자 수준 작업을 처리하고 저자원 언어 간 지식을 전달할 수 있습니다.
English
Tokenization imposes a fixed granularity on the input text, freezing how a
language model operates on data and how far in the future it predicts. Byte
Pair Encoding (BPE) and similar schemes split text once, build a static
vocabulary, and leave the model stuck with that choice. We relax this rigidity
by introducing an autoregressive U-Net that learns to embed its own tokens as
it trains. The network reads raw bytes, pools them into words, then pairs of
words, then up to 4 words, giving it a multi-scale view of the sequence. At
deeper stages, the model must predict further into the future -- anticipating
the next few words rather than the next byte -- so deeper stages focus on
broader semantic patterns while earlier stages handle fine details. When
carefully tuning and controlling pretraining compute, shallow hierarchies tie
strong BPE baselines, and deeper hierarchies have a promising trend. Because
tokenization now lives inside the model, the same system can handle
character-level tasks and carry knowledge across low-resource languages.