구조화된 이미지 표현을 위한 통신 기반 토큰화
Communication-Inspired Tokenization for Structured Image Representations
February 24, 2026
저자: Aram Davtyan, Yusuf Sahin, Yasaman Haghighi, Sebastian Stapf, Pablo Acuaviva, Alexandre Alahi, Paolo Favaro
cs.AI
초록
이산 이미지 토큰화기는 변환기(transformer) 기반 아키텍처에 순차적 인터페이스를 제공함으로써 현대 시각 및 다중모달 시스템의 핵심 구성 요소로 부상했습니다. 그러나 대부분의 기존 방법은 여전히 재구성 및 압축에 주로 최적화되어 있으며, 종종 객체 수준의 의미 구조보다는 지역적 텍스처를 포착하는 토큰을 생성합니다. 인간 의사소통의 점진적이고 구성적인 특성에서 영감을 받아, 우리는 구조화된 이산 시각 토큰 시퀀스를 학습하기 위한 프레임워크인 COMiT(COMmunication inspired Tokenization)를 소개합니다. COMiT는 지역화된 이미지 영역을 반복적으로 관찰하고 이산 표현을 재귀적으로 업데이트하며 고정된 토큰 예산 내에서 잠재 메시지를 구성합니다. 각 단계에서 모델은 새로운 시각 정보를 통합함과 동시에 기존 토큰 시퀀스를 정제 및 재구성합니다. 여러 번의 인코딩 반복 후, 최종 메시지는 전체 이미지를 재구성하는 흐름 정합(flow-matching) 디코더의 조건으로 작용합니다. 인코딩과 디코딩은 모두 단일 변환기 모델 내에서 구현되며, 흐름 정합 재구성 손실과 의미 표현 정렬 손실을 결합하여 종단간(end-to-end) 학습됩니다. 우리의 실험 결과는 의미 정렬이 기초를 제공하는 동시에, 주의 기반 순차적 토큰화가 해석 가능하고 객체 중심의 토큰 구조를 유도하며, 기존 방법 대비 구성 일반화 및 관계 추론 능력을 크게 향상시키는 데 중요함을 보여줍니다.
English
Discrete image tokenizers have emerged as a key component of modern vision and multimodal systems, providing a sequential interface for transformer-based architectures. However, most existing approaches remain primarily optimized for reconstruction and compression, often yielding tokens that capture local texture rather than object-level semantic structure. Inspired by the incremental and compositional nature of human communication, we introduce COMmunication inspired Tokenization (COMiT), a framework for learning structured discrete visual token sequences. COMiT constructs a latent message within a fixed token budget by iteratively observing localized image crops and recurrently updating its discrete representation. At each step, the model integrates new visual information while refining and reorganizing the existing token sequence. After several encoding iterations, the final message conditions a flow-matching decoder that reconstructs the full image. Both encoding and decoding are implemented within a single transformer model and trained end-to-end using a combination of flow-matching reconstruction and semantic representation alignment losses. Our experiments demonstrate that while semantic alignment provides grounding, attentive sequential tokenization is critical for inducing interpretable, object-centric token structure and substantially improving compositional generalization and relational reasoning over prior methods.