Das Säen eines SEEDs der Vision in großen Sprachmodellen
Planting a SEED of Vision in Large Language Model
July 16, 2023
Autoren: Yuying Ge, Yixiao Ge, Ziyun Zeng, Xintao Wang, Ying Shan
cs.AI
Zusammenfassung
Wir präsentieren SEED, einen ausgefeilten Bild-Tokenizer, der Large Language Models (LLMs) mit der emergenten Fähigkeit ausstattet, gleichzeitig zu SEHEN und zu ZEICHNEN. Die Forschung zu Bild-Tokenizern hat zuvor eine Sackgasse erreicht, da Frameworks, die quantisierte visuelle Tokens verwenden, aufgrund von unterdurchschnittlicher Leistung und Konvergenz im multimodalen Verständnis (im Vergleich zu BLIP-2 usw.) oder in der Generierung (im Vergleich zu Stable Diffusion usw.) an Bedeutung verloren haben. Trotz dieser Einschränkungen sind wir weiterhin von der natürlichen Fähigkeit überzeugt, visuelle und textuelle Repräsentationen zu vereinheitlichen und so skalierbares multimodales Training mit dem ursprünglichen Rezept von LLMs zu ermöglichen. In dieser Studie identifizieren wir zwei entscheidende Prinzipien für die Architektur und das Training von SEED, die die nachfolgende Ausrichtung mit LLMs effektiv erleichtern. (1) Bild-Tokens sollten unabhängig von 2D-physikalischen Patch-Positionen sein und stattdessen mit einer 1D-kausalen Abhängigkeit erzeugt werden, wobei sie eine intrinsische Interdependenz aufweisen, die mit dem links-nach-rechts autoregressiven Vorhersagemechanismus in LLMs übereinstimmt. (2) Bild-Tokens sollten hochgradige Semantik erfassen, die mit dem Grad der semantischen Abstraktion in Wörtern übereinstimmt, und sowohl für Diskriminativität als auch für Rekonstruktion während der Tokenizer-Trainingsphase optimiert werden. Dadurch ist das Standard-LLM in der Lage, sowohl Bild-zu-Text- als auch Text-zu-Bild-Generierung durch die Einbindung unseres SEED mittels effizienter LoRA-Anpassung durchzuführen. Umfassendes multimodales Vortraining und Instruktions-Tuning, das verbesserte Ergebnisse liefern könnte, bleibt zukünftigen Untersuchungen vorbehalten. Diese Version von SEED wurde in 5,7 Tagen mit nur 64 V100-GPUs und 5M öffentlich verfügbaren Bild-Text-Paaren trainiert. Unsere vorläufige Studie unterstreicht das große Potenzial diskreter visueller Tokens in vielseitigen multimodalen LLMs und die Bedeutung geeigneter Bild-Tokenizer in der breiteren Forschung.
English
We present SEED, an elaborate image tokenizer that empowers Large Language
Models (LLMs) with the emergent ability to SEE and Draw at the same time.
Research on image tokenizers has previously reached an impasse, as frameworks
employing quantized visual tokens have lost prominence due to subpar
performance and convergence in multimodal comprehension (compared to BLIP-2,
etc.) or generation (compared to Stable Diffusion, etc.). Despite the
limitations, we remain confident in its natural capacity to unify visual and
textual representations, facilitating scalable multimodal training with LLM's
original recipe. In this study, we identify two crucial principles for the
architecture and training of SEED that effectively ease subsequent alignment
with LLMs. (1) Image tokens should be independent of 2D physical patch
positions and instead be produced with a 1D causal dependency, exhibiting
intrinsic interdependence that aligns with the left-to-right autoregressive
prediction mechanism in LLMs. (2) Image tokens should capture high-level
semantics consistent with the degree of semantic abstraction in words, and be
optimized for both discriminativeness and reconstruction during the tokenizer
training phase. As a result, the off-the-shelf LLM is able to perform both
image-to-text and text-to-image generation by incorporating our SEED through
efficient LoRA tuning. Comprehensive multimodal pretraining and instruction
tuning, which may yield improved results, are reserved for future
investigation. This version of SEED was trained in 5.7 days using only 64 V100
GPUs and 5M publicly available image-text pairs. Our preliminary study
emphasizes the great potential of discrete visual tokens in versatile
multimodal LLMs and the importance of proper image tokenizers in broader
research.