Het planten van een ZAAD van Visie in Grote Taalmodellen

Samenvatting

We presenteren SEED, een uitgebreide image tokenizer die Large Language Models (LLMs) in staat stelt om tegelijkertijd te ZIEN en TE TEKENEN. Onderzoek naar image tokenizers is eerder vastgelopen, omdat frameworks die gebruikmaken van gekwantiseerde visuele tokens aan populariteit hebben ingeboet vanwege suboptimale prestaties en convergentie in multimodale begripsvorming (vergeleken met BLIP-2, etc.) of generatie (vergeleken met Stable Diffusion, etc.). Ondanks deze beperkingen blijven we vertrouwen hebben in de natuurlijke capaciteit om visuele en tekstuele representaties te verenigen, wat schaalbare multimodale training met het oorspronkelijke recept van LLM's vergemakkelijkt. In deze studie identificeren we twee cruciale principes voor de architectuur en training van SEED die de daaropvolgende afstemming met LLM's effectief vergemakkelijken. (1) Image tokens moeten onafhankelijk zijn van 2D fysieke patchposities en in plaats daarvan worden geproduceerd met een 1D causale afhankelijkheid, waarbij intrinsieke onderlinge afhankelijkheid wordt getoond die aansluit bij het van links naar rechts autoregressieve voorspellingsmechanisme in LLM's. (2) Image tokens moeten hoogwaardige semantiek vastleggen die consistent is met de mate van semantische abstractie in woorden, en moeten worden geoptimaliseerd voor zowel onderscheidend vermogen als reconstructie tijdens de trainingsfase van de tokenizer. Als gevolg hiervan kan de kant-en-klare LLM zowel beeld-naar-tekst als tekst-naar-beeld generatie uitvoeren door onze SEED te integreren via efficiënte LoRA-tuning. Uitgebreide multimodale pretraining en instructietuning, die mogelijk verbeterde resultaten kunnen opleveren, worden voorbehouden voor toekomstig onderzoek. Deze versie van SEED is in 5,7 dagen getraind met slechts 64 V100 GPU's en 5 miljoen publiek beschikbare beeld-tekstparen. Onze voorlopige studie benadrukt het grote potentieel van discrete visuele tokens in veelzijdige multimodale LLM's en het belang van geschikte image tokenizers in breder onderzoek.

English

We present SEED, an elaborate image tokenizer that empowers Large Language Models (LLMs) with the emergent ability to SEE and Draw at the same time. Research on image tokenizers has previously reached an impasse, as frameworks employing quantized visual tokens have lost prominence due to subpar performance and convergence in multimodal comprehension (compared to BLIP-2, etc.) or generation (compared to Stable Diffusion, etc.). Despite the limitations, we remain confident in its natural capacity to unify visual and textual representations, facilitating scalable multimodal training with LLM's original recipe. In this study, we identify two crucial principles for the architecture and training of SEED that effectively ease subsequent alignment with LLMs. (1) Image tokens should be independent of 2D physical patch positions and instead be produced with a 1D causal dependency, exhibiting intrinsic interdependence that aligns with the left-to-right autoregressive prediction mechanism in LLMs. (2) Image tokens should capture high-level semantics consistent with the degree of semantic abstraction in words, and be optimized for both discriminativeness and reconstruction during the tokenizer training phase. As a result, the off-the-shelf LLM is able to perform both image-to-text and text-to-image generation by incorporating our SEED through efficient LoRA tuning. Comprehensive multimodal pretraining and instruction tuning, which may yield improved results, are reserved for future investigation. This version of SEED was trained in 5.7 days using only 64 V100 GPUs and 5M publicly available image-text pairs. Our preliminary study emphasizes the great potential of discrete visual tokens in versatile multimodal LLMs and the importance of proper image tokenizers in broader research.

Het planten van een ZAAD van Visie in Grote Taalmodellen

Planting a SEED of Vision in Large Language Model

Samenvatting

Support