Tokenización de imágenes a nivel de subobjetos
Subobject-level Image Tokenization
February 22, 2024
Autores: Delong Chen, Samuel Cahyawijaya, Jianfeng Liu, Baoyuan Wang, Pascale Fung
cs.AI
Resumen
Los modelos de visión basados en Transformer suelen tokenizar imágenes en parches cuadrados de tamaño fijo como unidades de entrada, lo que carece de adaptabilidad al contenido de la imagen y pasa por alto la estructura inherente de agrupación de píxeles. Inspirados por la tokenización de subpalabras ampliamente adoptada en los modelos de lenguaje, proponemos un tokenizador de imágenes a nivel de subobjetos, donde los subobjetos están representados por segmentos de imagen semánticamente significativos obtenidos mediante modelos de segmentación (por ejemplo, modelos de segmentación universal). Para implementar un sistema de aprendizaje basado en la tokenización de subobjetos, primero introdujimos un AutoEncoder de Secuencia a Secuencia (SeqAE) para comprimir segmentos de subobjetos de diversos tamaños y formas en vectores de incrustación compactos, luego alimentamos las incrustaciones de subobjetos en un modelo de lenguaje grande para el aprendizaje de visión y lenguaje. Los resultados empíricos demostraron que nuestra tokenización a nivel de subobjetos facilita significativamente el aprendizaje eficiente de la traducción de imágenes en descripciones de objetos y atributos en comparación con la tokenización tradicional a nivel de parches. Los códigos y modelos se publicarán en https://github.com/ChenDelong1999/subobjects.
English
Transformer-based vision models typically tokenize images into fixed-size
square patches as input units, which lacks the adaptability to image content
and overlooks the inherent pixel grouping structure. Inspired by the subword
tokenization widely adopted in language models, we propose an image tokenizer
at a subobject level, where the subobjects are represented by semantically
meaningful image segments obtained by segmentation models (e.g., segment
anything models). To implement a learning system based on subobject
tokenization, we first introduced a Sequence-to-sequence AutoEncoder (SeqAE) to
compress subobject segments of varying sizes and shapes into compact embedding
vectors, then fed the subobject embeddings into a large language model for
vision language learning. Empirical results demonstrated that our
subobject-level tokenization significantly facilitates efficient learning of
translating images into object and attribute descriptions compared to the
traditional patch-level tokenization. Codes and models will be open-sourced at
https://github.com/ChenDelong1999/subobjects.