Токенизация изображений на уровне субобъектов
Subobject-level Image Tokenization
February 22, 2024
Авторы: Delong Chen, Samuel Cahyawijaya, Jianfeng Liu, Baoyuan Wang, Pascale Fung
cs.AI
Аннотация
Трансформерные модели для обработки изображений обычно токенизируют изображения на фиксированные квадратные патчи в качестве входных единиц, что не учитывает адаптивность к содержанию изображения и игнорирует присущую структуру группировки пикселей. Вдохновленные субсловной токенизацией, широко применяемой в языковых моделях, мы предлагаем токенизатор изображений на уровне субобъектов, где субобъекты представлены семантически значимыми сегментами изображений, полученными с помощью моделей сегментации (например, моделей типа "segment anything"). Для реализации системы обучения, основанной на токенизации субобъектов, мы сначала представили автоэнкодер последовательностей (SeqAE) для сжатия сегментов субобъектов различного размера и формы в компактные векторные представления, а затем передали эти представления в крупную языковую модель для обучения на стыке зрения и языка. Экспериментальные результаты показали, что токенизация на уровне субобъектов значительно способствует эффективному обучению переводу изображений в описания объектов и их атрибутов по сравнению с традиционной токенизацией на уровне патчей. Коды и модели будут опубликованы на https://github.com/ChenDelong1999/subobjects.
English
Transformer-based vision models typically tokenize images into fixed-size
square patches as input units, which lacks the adaptability to image content
and overlooks the inherent pixel grouping structure. Inspired by the subword
tokenization widely adopted in language models, we propose an image tokenizer
at a subobject level, where the subobjects are represented by semantically
meaningful image segments obtained by segmentation models (e.g., segment
anything models). To implement a learning system based on subobject
tokenization, we first introduced a Sequence-to-sequence AutoEncoder (SeqAE) to
compress subobject segments of varying sizes and shapes into compact embedding
vectors, then fed the subobject embeddings into a large language model for
vision language learning. Empirical results demonstrated that our
subobject-level tokenization significantly facilitates efficient learning of
translating images into object and attribute descriptions compared to the
traditional patch-level tokenization. Codes and models will be open-sourced at
https://github.com/ChenDelong1999/subobjects.