Tokenizzazione Ispirata alla Comunicazione per Rappresentazioni Strutturate di Immagini

Abstract

I tokenizzatori discreti di immagini sono emersi come componente chiave dei moderni sistemi visivi e multimodali, fornendo un'interfaccia sequenziale per le architetture basate su transformer. Tuttavia, la maggior parte degli approcci esistenti rimane principalmente ottimizzata per la ricostruzione e la compressione, producendo spesso token che catturano texture locali piuttosto che la struttura semantica a livello di oggetto. Ispirati dalla natura incrementale e composizionale della comunicazione umana, introduciamo COMunication inspired Tokenization (COMiT), un framework per l'apprendimento di sequenze discrete di token visivi strutturate. COMiT costruisce un messaggio latente entro un budget fisso di token osservando in modo iterativo porzioni localizzate dell'immagine e aggiornando ricorsivamente la sua rappresentazione discreta. Ad ogni passo, il modello integra nuove informazioni visive mentre affina e riorganizza la sequenza di token esistente. Dopo diverse iterazioni di codifica, il messaggio finale condiziona un decoder di flusso che ricostruisce l'immagine completa. Sia la codifica che la decodifica sono implementate all'interno di un singolo modello transformer e addestrate end-to-end utilizzando una combinazione di perdite di ricostruzione per flusso e di allineamento della rappresentazione semantica. I nostri esperimenti dimostrano che, sebbene l'allineamento semantico fornisca un ancoraggio, una tokenizzazione sequenziale e attenta è fondamentale per indurre una struttura di token interpretabile e centrata sugli oggetti, migliorando sostanzialmente la generalizzazione composizionale e il ragionamento relazionale rispetto ai metodi precedenti.

English

Discrete image tokenizers have emerged as a key component of modern vision and multimodal systems, providing a sequential interface for transformer-based architectures. However, most existing approaches remain primarily optimized for reconstruction and compression, often yielding tokens that capture local texture rather than object-level semantic structure. Inspired by the incremental and compositional nature of human communication, we introduce COMmunication inspired Tokenization (COMiT), a framework for learning structured discrete visual token sequences. COMiT constructs a latent message within a fixed token budget by iteratively observing localized image crops and recurrently updating its discrete representation. At each step, the model integrates new visual information while refining and reorganizing the existing token sequence. After several encoding iterations, the final message conditions a flow-matching decoder that reconstructs the full image. Both encoding and decoding are implemented within a single transformer model and trained end-to-end using a combination of flow-matching reconstruction and semantic representation alignment losses. Our experiments demonstrate that while semantic alignment provides grounding, attentive sequential tokenization is critical for inducing interpretable, object-centric token structure and substantially improving compositional generalization and relational reasoning over prior methods.

Tokenizzazione Ispirata alla Comunicazione per Rappresentazioni Strutturate di Immagini

Communication-Inspired Tokenization for Structured Image Representations

Abstract

Support