Токенизация изображений на уровне субобъектов

Аннотация

Трансформерные модели для обработки изображений обычно токенизируют изображения на фиксированные квадратные патчи в качестве входных единиц, что не учитывает адаптивность к содержанию изображения и игнорирует присущую структуру группировки пикселей. Вдохновленные субсловной токенизацией, широко применяемой в языковых моделях, мы предлагаем токенизатор изображений на уровне субобъектов, где субобъекты представлены семантически значимыми сегментами изображений, полученными с помощью моделей сегментации (например, моделей типа "segment anything"). Для реализации системы обучения, основанной на токенизации субобъектов, мы сначала представили автоэнкодер последовательностей (SeqAE) для сжатия сегментов субобъектов различного размера и формы в компактные векторные представления, а затем передали эти представления в крупную языковую модель для обучения на стыке зрения и языка. Экспериментальные результаты показали, что токенизация на уровне субобъектов значительно способствует эффективному обучению переводу изображений в описания объектов и их атрибутов по сравнению с традиционной токенизацией на уровне патчей. Коды и модели будут опубликованы на https://github.com/ChenDelong1999/subobjects.

English

Transformer-based vision models typically tokenize images into fixed-size square patches as input units, which lacks the adaptability to image content and overlooks the inherent pixel grouping structure. Inspired by the subword tokenization widely adopted in language models, we propose an image tokenizer at a subobject level, where the subobjects are represented by semantically meaningful image segments obtained by segmentation models (e.g., segment anything models). To implement a learning system based on subobject tokenization, we first introduced a Sequence-to-sequence AutoEncoder (SeqAE) to compress subobject segments of varying sizes and shapes into compact embedding vectors, then fed the subobject embeddings into a large language model for vision language learning. Empirical results demonstrated that our subobject-level tokenization significantly facilitates efficient learning of translating images into object and attribute descriptions compared to the traditional patch-level tokenization. Codes and models will be open-sourced at https://github.com/ChenDelong1999/subobjects.

Токенизация изображений на уровне субобъектов

Subobject-level Image Tokenization

Аннотация

Support