ChatPaper.aiChatPaper

Tokenización de imágenes a nivel de subobjetos

Subobject-level Image Tokenization

February 22, 2024
Autores: Delong Chen, Samuel Cahyawijaya, Jianfeng Liu, Baoyuan Wang, Pascale Fung
cs.AI

Resumen

Los modelos de visión basados en Transformer suelen tokenizar imágenes en parches cuadrados de tamaño fijo como unidades de entrada, lo que carece de adaptabilidad al contenido de la imagen y pasa por alto la estructura inherente de agrupación de píxeles. Inspirados por la tokenización de subpalabras ampliamente adoptada en los modelos de lenguaje, proponemos un tokenizador de imágenes a nivel de subobjetos, donde los subobjetos están representados por segmentos de imagen semánticamente significativos obtenidos mediante modelos de segmentación (por ejemplo, modelos de segmentación universal). Para implementar un sistema de aprendizaje basado en la tokenización de subobjetos, primero introdujimos un AutoEncoder de Secuencia a Secuencia (SeqAE) para comprimir segmentos de subobjetos de diversos tamaños y formas en vectores de incrustación compactos, luego alimentamos las incrustaciones de subobjetos en un modelo de lenguaje grande para el aprendizaje de visión y lenguaje. Los resultados empíricos demostraron que nuestra tokenización a nivel de subobjetos facilita significativamente el aprendizaje eficiente de la traducción de imágenes en descripciones de objetos y atributos en comparación con la tokenización tradicional a nivel de parches. Los códigos y modelos se publicarán en https://github.com/ChenDelong1999/subobjects.
English
Transformer-based vision models typically tokenize images into fixed-size square patches as input units, which lacks the adaptability to image content and overlooks the inherent pixel grouping structure. Inspired by the subword tokenization widely adopted in language models, we propose an image tokenizer at a subobject level, where the subobjects are represented by semantically meaningful image segments obtained by segmentation models (e.g., segment anything models). To implement a learning system based on subobject tokenization, we first introduced a Sequence-to-sequence AutoEncoder (SeqAE) to compress subobject segments of varying sizes and shapes into compact embedding vectors, then fed the subobject embeddings into a large language model for vision language learning. Empirical results demonstrated that our subobject-level tokenization significantly facilitates efficient learning of translating images into object and attribute descriptions compared to the traditional patch-level tokenization. Codes and models will be open-sourced at https://github.com/ChenDelong1999/subobjects.
PDF182December 15, 2024