Piantare un SEME di Visione nei Modelli Linguistici di Grande Dimensione
Planting a SEED of Vision in Large Language Model
July 16, 2023
Autori: Yuying Ge, Yixiao Ge, Ziyun Zeng, Xintao Wang, Ying Shan
cs.AI
Abstract
Presentiamo SEED, un elaborato tokenizzatore di immagini che conferisce ai Modelli Linguistici di Grande Scala (LLMs) la capacità emergente di VEDERE e DISEGNARE simultaneamente. La ricerca sui tokenizzatori di immagini aveva precedentemente raggiunto un punto di stallo, poiché i framework che impiegano token visivi quantizzati hanno perso rilevanza a causa di prestazioni e convergenza inferiori nella comprensione multimodale (rispetto a BLIP-2, ecc.) o nella generazione (rispetto a Stable Diffusion, ecc.). Nonostante queste limitazioni, rimaniamo fiduciosi nella sua capacità naturale di unificare rappresentazioni visive e testuali, facilitando un addestramento multimodale scalabile con la ricetta originale dei LLM. In questo studio, identifichiamo due principi cruciali per l'architettura e l'addestramento di SEED che facilitano efficacemente il successivo allineamento con i LLM. (1) I token di immagine dovrebbero essere indipendenti dalle posizioni fisiche 2D delle patch e invece essere prodotti con una dipendenza causale 1D, mostrando un'interdipendenza intrinseca che si allinea con il meccanismo di previsione autoregressiva da sinistra a destra nei LLM. (2) I token di immagine dovrebbero catturare semantiche di alto livello coerenti con il grado di astrazione semantica delle parole, ed essere ottimizzati sia per la discriminatività che per la ricostruzione durante la fase di addestramento del tokenizzatore. Di conseguenza, il LLM standard è in grado di eseguire sia la generazione da immagine a testo che da testo a immagine incorporando il nostro SEED attraverso un efficiente tuning LoRA. Un addestramento pregresso multimodale completo e il tuning delle istruzioni, che potrebbero produrre risultati migliori, sono riservati per future indagini. Questa versione di SEED è stata addestrata in 5,7 giorni utilizzando solo 64 GPU V100 e 5 milioni di coppie immagine-testo disponibili pubblicamente. Il nostro studio preliminare sottolinea il grande potenziale dei token visivi discreti nei LLM multimodali versatili e l'importanza di adeguati tokenizzatori di immagini in un contesto di ricerca più ampio.
English
We present SEED, an elaborate image tokenizer that empowers Large Language
Models (LLMs) with the emergent ability to SEE and Draw at the same time.
Research on image tokenizers has previously reached an impasse, as frameworks
employing quantized visual tokens have lost prominence due to subpar
performance and convergence in multimodal comprehension (compared to BLIP-2,
etc.) or generation (compared to Stable Diffusion, etc.). Despite the
limitations, we remain confident in its natural capacity to unify visual and
textual representations, facilitating scalable multimodal training with LLM's
original recipe. In this study, we identify two crucial principles for the
architecture and training of SEED that effectively ease subsequent alignment
with LLMs. (1) Image tokens should be independent of 2D physical patch
positions and instead be produced with a 1D causal dependency, exhibiting
intrinsic interdependence that aligns with the left-to-right autoregressive
prediction mechanism in LLMs. (2) Image tokens should capture high-level
semantics consistent with the degree of semantic abstraction in words, and be
optimized for both discriminativeness and reconstruction during the tokenizer
training phase. As a result, the off-the-shelf LLM is able to perform both
image-to-text and text-to-image generation by incorporating our SEED through
efficient LoRA tuning. Comprehensive multimodal pretraining and instruction
tuning, which may yield improved results, are reserved for future
investigation. This version of SEED was trained in 5.7 days using only 64 V100
GPUs and 5M publicly available image-text pairs. Our preliminary study
emphasizes the great potential of discrete visual tokens in versatile
multimodal LLMs and the importance of proper image tokenizers in broader
research.