Tokenização de Imagem em Nível de Subobjeto
Subobject-level Image Tokenization
February 22, 2024
Autores: Delong Chen, Samuel Cahyawijaya, Jianfeng Liu, Baoyuan Wang, Pascale Fung
cs.AI
Resumo
Modelos de visão baseados em Transformers normalmente tokenizam imagens em patches quadrados de tamanho fixo como unidades de entrada, o que carece de adaptabilidade ao conteúdo da imagem e ignora a estrutura inerente de agrupamento de pixels. Inspirados pela tokenização de subpalavras amplamente adotada em modelos de linguagem, propomos um tokenizador de imagens em nível de subobjetos, onde os subobjetos são representados por segmentos de imagem semanticamente significativos obtidos por modelos de segmentação (por exemplo, modelos "segment anything"). Para implementar um sistema de aprendizado baseado em tokenização de subobjetos, primeiro introduzimos um AutoEncoder de Sequência para Sequência (SeqAE) para comprimir segmentos de subobjetos de tamanhos e formas variados em vetores de embedding compactos, e então alimentamos os embeddings de subobjetos em um grande modelo de linguagem para aprendizado de visão e linguagem. Resultados empíricos demonstraram que nossa tokenização em nível de subobjetos facilita significativamente o aprendizado eficiente da tradução de imagens em descrições de objetos e atributos em comparação com a tokenização tradicional em nível de patch. Códigos e modelos serão disponibilizados em https://github.com/ChenDelong1999/subobjects.
English
Transformer-based vision models typically tokenize images into fixed-size
square patches as input units, which lacks the adaptability to image content
and overlooks the inherent pixel grouping structure. Inspired by the subword
tokenization widely adopted in language models, we propose an image tokenizer
at a subobject level, where the subobjects are represented by semantically
meaningful image segments obtained by segmentation models (e.g., segment
anything models). To implement a learning system based on subobject
tokenization, we first introduced a Sequence-to-sequence AutoEncoder (SeqAE) to
compress subobject segments of varying sizes and shapes into compact embedding
vectors, then fed the subobject embeddings into a large language model for
vision language learning. Empirical results demonstrated that our
subobject-level tokenization significantly facilitates efficient learning of
translating images into object and attribute descriptions compared to the
traditional patch-level tokenization. Codes and models will be open-sourced at
https://github.com/ChenDelong1999/subobjects.