Piantare un SEME di Visione nei Modelli Linguistici di Grande Dimensione

Abstract

Presentiamo SEED, un elaborato tokenizzatore di immagini che conferisce ai Modelli Linguistici di Grande Scala (LLMs) la capacità emergente di VEDERE e DISEGNARE simultaneamente. La ricerca sui tokenizzatori di immagini aveva precedentemente raggiunto un punto di stallo, poiché i framework che impiegano token visivi quantizzati hanno perso rilevanza a causa di prestazioni e convergenza inferiori nella comprensione multimodale (rispetto a BLIP-2, ecc.) o nella generazione (rispetto a Stable Diffusion, ecc.). Nonostante queste limitazioni, rimaniamo fiduciosi nella sua capacità naturale di unificare rappresentazioni visive e testuali, facilitando un addestramento multimodale scalabile con la ricetta originale dei LLM. In questo studio, identifichiamo due principi cruciali per l'architettura e l'addestramento di SEED che facilitano efficacemente il successivo allineamento con i LLM. (1) I token di immagine dovrebbero essere indipendenti dalle posizioni fisiche 2D delle patch e invece essere prodotti con una dipendenza causale 1D, mostrando un'interdipendenza intrinseca che si allinea con il meccanismo di previsione autoregressiva da sinistra a destra nei LLM. (2) I token di immagine dovrebbero catturare semantiche di alto livello coerenti con il grado di astrazione semantica delle parole, ed essere ottimizzati sia per la discriminatività che per la ricostruzione durante la fase di addestramento del tokenizzatore. Di conseguenza, il LLM standard è in grado di eseguire sia la generazione da immagine a testo che da testo a immagine incorporando il nostro SEED attraverso un efficiente tuning LoRA. Un addestramento pregresso multimodale completo e il tuning delle istruzioni, che potrebbero produrre risultati migliori, sono riservati per future indagini. Questa versione di SEED è stata addestrata in 5,7 giorni utilizzando solo 64 GPU V100 e 5 milioni di coppie immagine-testo disponibili pubblicamente. Il nostro studio preliminare sottolinea il grande potenziale dei token visivi discreti nei LLM multimodali versatili e l'importanza di adeguati tokenizzatori di immagini in un contesto di ricerca più ampio.

English

We present SEED, an elaborate image tokenizer that empowers Large Language Models (LLMs) with the emergent ability to SEE and Draw at the same time. Research on image tokenizers has previously reached an impasse, as frameworks employing quantized visual tokens have lost prominence due to subpar performance and convergence in multimodal comprehension (compared to BLIP-2, etc.) or generation (compared to Stable Diffusion, etc.). Despite the limitations, we remain confident in its natural capacity to unify visual and textual representations, facilitating scalable multimodal training with LLM's original recipe. In this study, we identify two crucial principles for the architecture and training of SEED that effectively ease subsequent alignment with LLMs. (1) Image tokens should be independent of 2D physical patch positions and instead be produced with a 1D causal dependency, exhibiting intrinsic interdependence that aligns with the left-to-right autoregressive prediction mechanism in LLMs. (2) Image tokens should capture high-level semantics consistent with the degree of semantic abstraction in words, and be optimized for both discriminativeness and reconstruction during the tokenizer training phase. As a result, the off-the-shelf LLM is able to perform both image-to-text and text-to-image generation by incorporating our SEED through efficient LoRA tuning. Comprehensive multimodal pretraining and instruction tuning, which may yield improved results, are reserved for future investigation. This version of SEED was trained in 5.7 days using only 64 V100 GPUs and 5M publicly available image-text pairs. Our preliminary study emphasizes the great potential of discrete visual tokens in versatile multimodal LLMs and the importance of proper image tokenizers in broader research.

Piantare un SEME di Visione nei Modelli Linguistici di Grande Dimensione

Planting a SEED of Vision in Large Language Model

Abstract

Support