Het Benutten van de Potentie van Grote Taalmodellen voor Tekst-naar-Beeld Generatie door Autoregressieve Representatie-uitlijning
Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment
March 10, 2025
Auteurs: Xing Xie, Jiawei Liu, Ziyue Lin, Huijie Fan, Zhi Han, Yandong Tang, Liangqiong Qu
cs.AI
Samenvatting
We presenteren Autoregressive Representation Alignment (ARRA), een nieuw trainingsframework dat wereldwijd coherente tekst-naar-beeldgeneratie mogelijk maakt in autoregressieve LLM's zonder architectuurwijzigingen. In tegenstelling tot eerder werk dat complexe architectuurherzieningen vereist, aligneert ARRA verborgen toestanden van LLM's met visuele representaties van externe visuele foundationmodellen via een globaal visueel aligneringsverlies en een hybride token, <HYBNEXT>. Deze token legt dubbele beperkingen op: lokale volgende-tokenvoorspelling en globale semantische destillatie, waardoor LLM's impliciet ruimtelijke en contextuele coherentie kunnen leren terwijl ze hun oorspronkelijke autoregressieve paradigma behouden. Uitgebreide experimenten valideren de plug-and-play veelzijdigheid van ARRA. Bij het trainen van LLM's die alleen tekst genereren of bij willekeurige initialisatie, reduceert ARRA de FID met 25,5% (MIMIC-CXR), 8,8% (DeepEyeNet) en 7,5% (ImageNet) voor geavanceerde autoregressieve LLM's zoals Chameleon en LlamaGen, allemaal zonder frameworkwijzigingen. Voor domeinaanpassing aligneert ARRA algemene LLM's met gespecialiseerde modellen (bijv. BioMedCLIP), wat resulteert in een FID-reductie van 18,6% ten opzichte van directe fine-tuning op medische beeldvorming (MIMIC-CXR). Door aan te tonen dat herontwerp van het trainingsdoel – niet alleen architectuurinnovatie – wereldwijde coherentie-uitdagingen tussen modaliteiten kan oplossen, biedt ARRA een complementair paradigma voor het bevorderen van autoregressieve modellen. Code en modellen zullen worden vrijgegeven om autoregressieve beeldgeneratie verder te ontwikkelen.
English
We present Autoregressive Representation Alignment (ARRA), a new training
framework that unlocks global-coherent text-to-image generation in
autoregressive LLMs without architectural changes. Unlike prior work that
requires complex architectural redesigns, ARRA aligns LLM hidden states with
visual representations from external visual foundational models via a global
visual alignment loss and a hybrid token, <HYBNEXT>. This token enforces dual
constraints: local next-token prediction and global semantic distillation,
enabling LLMs to implicitly learn spatial and contextual coherence while
retaining their original autoregressive paradigm. Extensive experiments
validate ARRA's plug-and-play versatility. When training from
text-generation-only LLMs or random initialization, ARRA reduces FID by 25.5%
(MIMIC-CXR), 8.8% (DeepEyeNet), and 7.5% (ImageNet) for advanced autoregressive
LLMs like Chameleon and LlamaGen, all without framework modifications. For
domain adaption, ARRA aligns general-purpose LLMs with specialized models
(e.g., BioMedCLIP), achieving an 18.6% FID reduction over direct fine-tuning on
medical imaging (MIMIC-CXR). By demonstrating that training objective redesign
-- not just architectural innovation -- can resolve cross-modal global
coherence challenges, ARRA offers a complementary paradigm for advancing
autoregressive models. Code and models will be released to advance
autoregressive image generation.Summary
AI-Generated Summary