Het planten van een ZAAD van Visie in Grote Taalmodellen
Planting a SEED of Vision in Large Language Model
July 16, 2023
Auteurs: Yuying Ge, Yixiao Ge, Ziyun Zeng, Xintao Wang, Ying Shan
cs.AI
Samenvatting
We presenteren SEED, een uitgebreide image tokenizer die Large Language Models (LLMs) in staat stelt om tegelijkertijd te ZIEN en TE TEKENEN. Onderzoek naar image tokenizers is eerder vastgelopen, omdat frameworks die gebruikmaken van gekwantiseerde visuele tokens aan populariteit hebben ingeboet vanwege suboptimale prestaties en convergentie in multimodale begripsvorming (vergeleken met BLIP-2, etc.) of generatie (vergeleken met Stable Diffusion, etc.). Ondanks deze beperkingen blijven we vertrouwen hebben in de natuurlijke capaciteit om visuele en tekstuele representaties te verenigen, wat schaalbare multimodale training met het oorspronkelijke recept van LLM's vergemakkelijkt. In deze studie identificeren we twee cruciale principes voor de architectuur en training van SEED die de daaropvolgende afstemming met LLM's effectief vergemakkelijken. (1) Image tokens moeten onafhankelijk zijn van 2D fysieke patchposities en in plaats daarvan worden geproduceerd met een 1D causale afhankelijkheid, waarbij intrinsieke onderlinge afhankelijkheid wordt getoond die aansluit bij het van links naar rechts autoregressieve voorspellingsmechanisme in LLM's. (2) Image tokens moeten hoogwaardige semantiek vastleggen die consistent is met de mate van semantische abstractie in woorden, en moeten worden geoptimaliseerd voor zowel onderscheidend vermogen als reconstructie tijdens de trainingsfase van de tokenizer. Als gevolg hiervan kan de kant-en-klare LLM zowel beeld-naar-tekst als tekst-naar-beeld generatie uitvoeren door onze SEED te integreren via efficiënte LoRA-tuning. Uitgebreide multimodale pretraining en instructietuning, die mogelijk verbeterde resultaten kunnen opleveren, worden voorbehouden voor toekomstig onderzoek. Deze versie van SEED is in 5,7 dagen getraind met slechts 64 V100 GPU's en 5 miljoen publiek beschikbare beeld-tekstparen. Onze voorlopige studie benadrukt het grote potentieel van discrete visuele tokens in veelzijdige multimodale LLM's en het belang van geschikte image tokenizers in breder onderzoek.
English
We present SEED, an elaborate image tokenizer that empowers Large Language
Models (LLMs) with the emergent ability to SEE and Draw at the same time.
Research on image tokenizers has previously reached an impasse, as frameworks
employing quantized visual tokens have lost prominence due to subpar
performance and convergence in multimodal comprehension (compared to BLIP-2,
etc.) or generation (compared to Stable Diffusion, etc.). Despite the
limitations, we remain confident in its natural capacity to unify visual and
textual representations, facilitating scalable multimodal training with LLM's
original recipe. In this study, we identify two crucial principles for the
architecture and training of SEED that effectively ease subsequent alignment
with LLMs. (1) Image tokens should be independent of 2D physical patch
positions and instead be produced with a 1D causal dependency, exhibiting
intrinsic interdependence that aligns with the left-to-right autoregressive
prediction mechanism in LLMs. (2) Image tokens should capture high-level
semantics consistent with the degree of semantic abstraction in words, and be
optimized for both discriminativeness and reconstruction during the tokenizer
training phase. As a result, the off-the-shelf LLM is able to perform both
image-to-text and text-to-image generation by incorporating our SEED through
efficient LoRA tuning. Comprehensive multimodal pretraining and instruction
tuning, which may yield improved results, are reserved for future
investigation. This version of SEED was trained in 5.7 days using only 64 V100
GPUs and 5M publicly available image-text pairs. Our preliminary study
emphasizes the great potential of discrete visual tokens in versatile
multimodal LLMs and the importance of proper image tokenizers in broader
research.