Subobjekt-Level-Bildtokenisierung

papers.abstract

Transformer-basierte Vision-Modelle tokenisieren Bilder typischerweise in feste quadratische Patches als Eingabeeinheiten, was die Anpassungsfähigkeit an den Bildinhalt vermissen lässt und die inhärente Pixelgruppierungsstruktur vernachlässigt. Inspiriert von der Subwort-Tokenisierung, die in Sprachmodellen weit verbreitet ist, schlagen wir einen Bild-Tokenizer auf Subobjekt-Ebene vor, wobei die Subobjekte durch semantisch bedeutungsvolle Bildsegmente repräsentiert werden, die durch Segmentierungsmodelle (z.B. Segment-Anything-Modelle) gewonnen werden. Um ein Lernsystem auf Basis der Subobjekt-Tokenisierung zu implementieren, haben wir zunächst einen Sequenz-zu-Sequenz-AutoEncoder (SeqAE) eingeführt, um Subobjektsegmente unterschiedlicher Größen und Formen in kompakte Embedding-Vektoren zu komprimieren, und dann die Subobjekt-Embeddings in ein großes Sprachmodell für das Vision-Sprache-Lernen eingespeist. Empirische Ergebnisse zeigten, dass unsere Tokenisierung auf Subobjekt-Ebene im Vergleich zur traditionellen Patch-Level-Tokenisierung das effiziente Lernen der Übersetzung von Bildern in Objekt- und Attributbeschreibungen deutlich erleichtert. Codes und Modelle werden unter https://github.com/ChenDelong1999/subobjects open-source bereitgestellt.

English

Transformer-based vision models typically tokenize images into fixed-size square patches as input units, which lacks the adaptability to image content and overlooks the inherent pixel grouping structure. Inspired by the subword tokenization widely adopted in language models, we propose an image tokenizer at a subobject level, where the subobjects are represented by semantically meaningful image segments obtained by segmentation models (e.g., segment anything models). To implement a learning system based on subobject tokenization, we first introduced a Sequence-to-sequence AutoEncoder (SeqAE) to compress subobject segments of varying sizes and shapes into compact embedding vectors, then fed the subobject embeddings into a large language model for vision language learning. Empirical results demonstrated that our subobject-level tokenization significantly facilitates efficient learning of translating images into object and attribute descriptions compared to the traditional patch-level tokenization. Codes and models will be open-sourced at https://github.com/ChenDelong1999/subobjects.

Subobjekt-Level-Bildtokenisierung

Subobject-level Image Tokenization

papers.abstract

Support