Tokenizzazione delle immagini a livello di sotto-oggetti
Subobject-level Image Tokenization
February 22, 2024
Autori: Delong Chen, Samuel Cahyawijaya, Jianfeng Liu, Baoyuan Wang, Pascale Fung
cs.AI
Abstract
I modelli visivi basati su Transformer tipicamente tokenizzano le immagini in patch quadrate di dimensioni fisse come unità di input, il che manca di adattabilità al contenuto dell'immagine e trascura la struttura intrinseca di raggruppamento dei pixel. Ispirati dalla tokenizzazione a livello di sottoparole ampiamente adottata nei modelli linguistici, proponiamo un tokenizzatore di immagini a livello di sotto-oggetti, dove i sotto-oggetti sono rappresentati da segmenti di immagine semanticamente significativi ottenuti tramite modelli di segmentazione (ad esempio, modelli di segmentazione generica). Per implementare un sistema di apprendimento basato sulla tokenizzazione a livello di sotto-oggetti, abbiamo prima introdotto un AutoEncoder Sequenza-a-Sequenza (SeqAE) per comprimere segmenti di sotto-oggetti di dimensioni e forme variabili in vettori di embedding compatti, quindi abbiamo alimentato gli embedding dei sotto-oggetti in un grande modello linguistico per l'apprendimento visivo-linguistico. I risultati empirici hanno dimostrato che la nostra tokenizzazione a livello di sotto-oggetti facilita significativamente l'apprendimento efficiente della traduzione di immagini in descrizioni di oggetti e attributi rispetto alla tradizionale tokenizzazione a livello di patch. I codici e i modelli saranno resi disponibili open-source su https://github.com/ChenDelong1999/subobjects.
English
Transformer-based vision models typically tokenize images into fixed-size
square patches as input units, which lacks the adaptability to image content
and overlooks the inherent pixel grouping structure. Inspired by the subword
tokenization widely adopted in language models, we propose an image tokenizer
at a subobject level, where the subobjects are represented by semantically
meaningful image segments obtained by segmentation models (e.g., segment
anything models). To implement a learning system based on subobject
tokenization, we first introduced a Sequence-to-sequence AutoEncoder (SeqAE) to
compress subobject segments of varying sizes and shapes into compact embedding
vectors, then fed the subobject embeddings into a large language model for
vision language learning. Empirical results demonstrated that our
subobject-level tokenization significantly facilitates efficient learning of
translating images into object and attribute descriptions compared to the
traditional patch-level tokenization. Codes and models will be open-sourced at
https://github.com/ChenDelong1999/subobjects.