Planter une GRAINE de vision dans les grands modèles de langage
Planting a SEED of Vision in Large Language Model
July 16, 2023
Auteurs: Yuying Ge, Yixiao Ge, Ziyun Zeng, Xintao Wang, Ying Shan
cs.AI
Résumé
Nous présentons SEED, un tokenizer d'images élaboré qui confère aux grands modèles de langage (LLMs) la capacité émergente de VOIR et de DESSINER simultanément. Les recherches sur les tokenizers d'images avaient précédemment atteint une impasse, car les frameworks utilisant des tokens visuels quantifiés ont perdu en popularité en raison de performances et de convergences médiocres dans la compréhension multimodale (comparé à BLIP-2, etc.) ou dans la génération (comparé à Stable Diffusion, etc.). Malgré ces limitations, nous restons convaincus de leur capacité naturelle à unifier les représentations visuelles et textuelles, facilitant un entraînement multimodal scalable avec la recette originale des LLMs. Dans cette étude, nous identifions deux principes cruciaux pour l'architecture et l'entraînement de SEED qui facilitent efficacement l'alignement ultérieur avec les LLMs. (1) Les tokens d'images doivent être indépendants des positions physiques 2D des patches et être produits avec une dépendance causale 1D, présentant une interdépendance intrinsèque qui s'aligne avec le mécanisme de prédiction autoregressive de gauche à droite dans les LLMs. (2) Les tokens d'images doivent capturer des sémantiques de haut niveau cohérentes avec le degré d'abstraction sémantique des mots, et être optimisés à la fois pour la discriminativité et la reconstruction pendant la phase d'entraînement du tokenizer. En conséquence, le LLM prêt à l'emploi est capable de réaliser à la fois la génération d'image-à-texte et de texte-à-image en intégrant notre SEED grâce à un réglage efficace via LoRA. Un pré-entraînement multimodal complet et un réglage par instruction, qui pourraient donner de meilleurs résultats, sont réservés pour de futures investigations. Cette version de SEED a été entraînée en 5,7 jours en utilisant seulement 64 GPU V100 et 5 millions de paires image-texte disponibles publiquement. Notre étude préliminaire met en avant le grand potentiel des tokens visuels discrets dans les LLMs multimodaux polyvalents et l'importance des tokenizers d'images appropriés dans des recherches plus vastes.
English
We present SEED, an elaborate image tokenizer that empowers Large Language
Models (LLMs) with the emergent ability to SEE and Draw at the same time.
Research on image tokenizers has previously reached an impasse, as frameworks
employing quantized visual tokens have lost prominence due to subpar
performance and convergence in multimodal comprehension (compared to BLIP-2,
etc.) or generation (compared to Stable Diffusion, etc.). Despite the
limitations, we remain confident in its natural capacity to unify visual and
textual representations, facilitating scalable multimodal training with LLM's
original recipe. In this study, we identify two crucial principles for the
architecture and training of SEED that effectively ease subsequent alignment
with LLMs. (1) Image tokens should be independent of 2D physical patch
positions and instead be produced with a 1D causal dependency, exhibiting
intrinsic interdependence that aligns with the left-to-right autoregressive
prediction mechanism in LLMs. (2) Image tokens should capture high-level
semantics consistent with the degree of semantic abstraction in words, and be
optimized for both discriminativeness and reconstruction during the tokenizer
training phase. As a result, the off-the-shelf LLM is able to perform both
image-to-text and text-to-image generation by incorporating our SEED through
efficient LoRA tuning. Comprehensive multimodal pretraining and instruction
tuning, which may yield improved results, are reserved for future
investigation. This version of SEED was trained in 5.7 days using only 64 V100
GPUs and 5M publicly available image-text pairs. Our preliminary study
emphasizes the great potential of discrete visual tokens in versatile
multimodal LLMs and the importance of proper image tokenizers in broader
research.