Subobjekt-Level-Bildtokenisierung
Subobject-level Image Tokenization
February 22, 2024
Autoren: Delong Chen, Samuel Cahyawijaya, Jianfeng Liu, Baoyuan Wang, Pascale Fung
cs.AI
Zusammenfassung
Transformer-basierte Vision-Modelle tokenisieren Bilder typischerweise in feste quadratische Patches als Eingabeeinheiten, was die Anpassungsfähigkeit an den Bildinhalt vermissen lässt und die inhärente Pixelgruppierungsstruktur vernachlässigt. Inspiriert von der Subwort-Tokenisierung, die in Sprachmodellen weit verbreitet ist, schlagen wir einen Bild-Tokenizer auf Subobjekt-Ebene vor, wobei die Subobjekte durch semantisch bedeutungsvolle Bildsegmente repräsentiert werden, die durch Segmentierungsmodelle (z.B. Segment-Anything-Modelle) gewonnen werden. Um ein Lernsystem auf Basis der Subobjekt-Tokenisierung zu implementieren, haben wir zunächst einen Sequenz-zu-Sequenz-AutoEncoder (SeqAE) eingeführt, um Subobjektsegmente unterschiedlicher Größen und Formen in kompakte Embedding-Vektoren zu komprimieren, und dann die Subobjekt-Embeddings in ein großes Sprachmodell für das Vision-Sprache-Lernen eingespeist. Empirische Ergebnisse zeigten, dass unsere Tokenisierung auf Subobjekt-Ebene im Vergleich zur traditionellen Patch-Level-Tokenisierung das effiziente Lernen der Übersetzung von Bildern in Objekt- und Attributbeschreibungen deutlich erleichtert. Codes und Modelle werden unter https://github.com/ChenDelong1999/subobjects open-source bereitgestellt.
English
Transformer-based vision models typically tokenize images into fixed-size
square patches as input units, which lacks the adaptability to image content
and overlooks the inherent pixel grouping structure. Inspired by the subword
tokenization widely adopted in language models, we propose an image tokenizer
at a subobject level, where the subobjects are represented by semantically
meaningful image segments obtained by segmentation models (e.g., segment
anything models). To implement a learning system based on subobject
tokenization, we first introduced a Sequence-to-sequence AutoEncoder (SeqAE) to
compress subobject segments of varying sizes and shapes into compact embedding
vectors, then fed the subobject embeddings into a large language model for
vision language learning. Empirical results demonstrated that our
subobject-level tokenization significantly facilitates efficient learning of
translating images into object and attribute descriptions compared to the
traditional patch-level tokenization. Codes and models will be open-sourced at
https://github.com/ChenDelong1999/subobjects.