ChatPaper.aiChatPaper

Tokenisation d'image au niveau des sous-objets

Subobject-level Image Tokenization

February 22, 2024
Auteurs: Delong Chen, Samuel Cahyawijaya, Jianfeng Liu, Baoyuan Wang, Pascale Fung
cs.AI

Résumé

Les modèles de vision basés sur Transformer tokenisent généralement les images en patches carrés de taille fixe comme unités d'entrée, ce qui manque d'adaptabilité au contenu de l'image et néglige la structure inhérente de regroupement des pixels. Inspirés par la tokenisation en sous-mots largement adoptée dans les modèles de langage, nous proposons un tokeniseur d'images au niveau des sous-objets, où les sous-objets sont représentés par des segments d'images sémantiquement significatifs obtenus via des modèles de segmentation (par exemple, les modèles "segment anything"). Pour implémenter un système d'apprentissage basé sur la tokenisation en sous-objets, nous avons d'abord introduit un AutoEncodeur Séquence-à-Séquence (SeqAE) pour compresser les segments de sous-objets de tailles et formes variées en vecteurs d'embedding compacts, puis avons alimenté ces embeddings de sous-objets dans un grand modèle de langage pour l'apprentissage vision-langage. Les résultats empiriques ont démontré que notre tokenisation au niveau des sous-objets facilite significativement l'apprentissage efficace de la traduction d'images en descriptions d'objets et d'attributs par rapport à la tokenisation traditionnelle au niveau des patches. Les codes et modèles seront open-sourcés à l'adresse https://github.com/ChenDelong1999/subobjects.
English
Transformer-based vision models typically tokenize images into fixed-size square patches as input units, which lacks the adaptability to image content and overlooks the inherent pixel grouping structure. Inspired by the subword tokenization widely adopted in language models, we propose an image tokenizer at a subobject level, where the subobjects are represented by semantically meaningful image segments obtained by segmentation models (e.g., segment anything models). To implement a learning system based on subobject tokenization, we first introduced a Sequence-to-sequence AutoEncoder (SeqAE) to compress subobject segments of varying sizes and shapes into compact embedding vectors, then fed the subobject embeddings into a large language model for vision language learning. Empirical results demonstrated that our subobject-level tokenization significantly facilitates efficient learning of translating images into object and attribute descriptions compared to the traditional patch-level tokenization. Codes and models will be open-sourced at https://github.com/ChenDelong1999/subobjects.
PDF182December 15, 2024