Tokenizzazione delle immagini a livello di sotto-oggetti

Abstract

I modelli visivi basati su Transformer tipicamente tokenizzano le immagini in patch quadrate di dimensioni fisse come unità di input, il che manca di adattabilità al contenuto dell'immagine e trascura la struttura intrinseca di raggruppamento dei pixel. Ispirati dalla tokenizzazione a livello di sottoparole ampiamente adottata nei modelli linguistici, proponiamo un tokenizzatore di immagini a livello di sotto-oggetti, dove i sotto-oggetti sono rappresentati da segmenti di immagine semanticamente significativi ottenuti tramite modelli di segmentazione (ad esempio, modelli di segmentazione generica). Per implementare un sistema di apprendimento basato sulla tokenizzazione a livello di sotto-oggetti, abbiamo prima introdotto un AutoEncoder Sequenza-a-Sequenza (SeqAE) per comprimere segmenti di sotto-oggetti di dimensioni e forme variabili in vettori di embedding compatti, quindi abbiamo alimentato gli embedding dei sotto-oggetti in un grande modello linguistico per l'apprendimento visivo-linguistico. I risultati empirici hanno dimostrato che la nostra tokenizzazione a livello di sotto-oggetti facilita significativamente l'apprendimento efficiente della traduzione di immagini in descrizioni di oggetti e attributi rispetto alla tradizionale tokenizzazione a livello di patch. I codici e i modelli saranno resi disponibili open-source su https://github.com/ChenDelong1999/subobjects.

English

Transformer-based vision models typically tokenize images into fixed-size square patches as input units, which lacks the adaptability to image content and overlooks the inherent pixel grouping structure. Inspired by the subword tokenization widely adopted in language models, we propose an image tokenizer at a subobject level, where the subobjects are represented by semantically meaningful image segments obtained by segmentation models (e.g., segment anything models). To implement a learning system based on subobject tokenization, we first introduced a Sequence-to-sequence AutoEncoder (SeqAE) to compress subobject segments of varying sizes and shapes into compact embedding vectors, then fed the subobject embeddings into a large language model for vision language learning. Empirical results demonstrated that our subobject-level tokenization significantly facilitates efficient learning of translating images into object and attribute descriptions compared to the traditional patch-level tokenization. Codes and models will be open-sourced at https://github.com/ChenDelong1999/subobjects.

Tokenizzazione delle immagini a livello di sotto-oggetti

Subobject-level Image Tokenization

Abstract

Support