ChatPaper.aiChatPaper

Токенизация изображений на уровне субобъектов

Subobject-level Image Tokenization

February 22, 2024
Авторы: Delong Chen, Samuel Cahyawijaya, Jianfeng Liu, Baoyuan Wang, Pascale Fung
cs.AI

Аннотация

Трансформерные модели для обработки изображений обычно токенизируют изображения на фиксированные квадратные патчи в качестве входных единиц, что не учитывает адаптивность к содержанию изображения и игнорирует присущую структуру группировки пикселей. Вдохновленные субсловной токенизацией, широко применяемой в языковых моделях, мы предлагаем токенизатор изображений на уровне субобъектов, где субобъекты представлены семантически значимыми сегментами изображений, полученными с помощью моделей сегментации (например, моделей типа "segment anything"). Для реализации системы обучения, основанной на токенизации субобъектов, мы сначала представили автоэнкодер последовательностей (SeqAE) для сжатия сегментов субобъектов различного размера и формы в компактные векторные представления, а затем передали эти представления в крупную языковую модель для обучения на стыке зрения и языка. Экспериментальные результаты показали, что токенизация на уровне субобъектов значительно способствует эффективному обучению переводу изображений в описания объектов и их атрибутов по сравнению с традиционной токенизацией на уровне патчей. Коды и модели будут опубликованы на https://github.com/ChenDelong1999/subobjects.
English
Transformer-based vision models typically tokenize images into fixed-size square patches as input units, which lacks the adaptability to image content and overlooks the inherent pixel grouping structure. Inspired by the subword tokenization widely adopted in language models, we propose an image tokenizer at a subobject level, where the subobjects are represented by semantically meaningful image segments obtained by segmentation models (e.g., segment anything models). To implement a learning system based on subobject tokenization, we first introduced a Sequence-to-sequence AutoEncoder (SeqAE) to compress subobject segments of varying sizes and shapes into compact embedding vectors, then fed the subobject embeddings into a large language model for vision language learning. Empirical results demonstrated that our subobject-level tokenization significantly facilitates efficient learning of translating images into object and attribute descriptions compared to the traditional patch-level tokenization. Codes and models will be open-sourced at https://github.com/ChenDelong1999/subobjects.
PDF182December 15, 2024