ChatPaper.aiChatPaper

Subobjectniveau beeldtokenisatie

Subobject-level Image Tokenization

February 22, 2024
Auteurs: Delong Chen, Samuel Cahyawijaya, Jianfeng Liu, Baoyuan Wang, Pascale Fung
cs.AI

Samenvatting

Transformer-gebaseerde vision-modellen tokeniseren doorgaans afbeeldingen in vaste, vierkante patches als invoereenheden, wat de aanpassingsmogelijkheid aan de beeldinhoud beperkt en de inherente pixelgroeperingsstructuur over het hoofd ziet. Geïnspireerd door de subwoord-tokenisatie die veel wordt gebruikt in taalmodellen, stellen we een beeld-tokenizer voor op subobjectniveau, waarbij de subobjecten worden vertegenwoordigd door semantisch betekenisvolle beeldsegmenten die worden verkregen via segmentatiemodellen (bijvoorbeeld 'segment anything'-modellen). Om een leersysteem te implementeren dat gebaseerd is op subobject-tokenisatie, introduceerden we eerst een Sequence-to-sequence AutoEncoder (SeqAE) om subobjectsegmenten van verschillende groottes en vormen te comprimeren tot compacte embeddingvectoren, waarna de subobject-embeddings werden ingevoerd in een groot taalmodel voor vision-taal-leren. Empirische resultaten toonden aan dat onze tokenisatie op subobjectniveau het efficiënt leren van het vertalen van afbeeldingen naar object- en attribuutbeschrijvingen aanzienlijk vergemakkelijkt in vergelijking met de traditionele patch-niveau-tokenisatie. Codes en modellen zullen worden openbaar gemaakt op https://github.com/ChenDelong1999/subobjects.
English
Transformer-based vision models typically tokenize images into fixed-size square patches as input units, which lacks the adaptability to image content and overlooks the inherent pixel grouping structure. Inspired by the subword tokenization widely adopted in language models, we propose an image tokenizer at a subobject level, where the subobjects are represented by semantically meaningful image segments obtained by segmentation models (e.g., segment anything models). To implement a learning system based on subobject tokenization, we first introduced a Sequence-to-sequence AutoEncoder (SeqAE) to compress subobject segments of varying sizes and shapes into compact embedding vectors, then fed the subobject embeddings into a large language model for vision language learning. Empirical results demonstrated that our subobject-level tokenization significantly facilitates efficient learning of translating images into object and attribute descriptions compared to the traditional patch-level tokenization. Codes and models will be open-sourced at https://github.com/ChenDelong1999/subobjects.
PDF182February 14, 2026