Das Potenzial großer Sprachmodelle für die Text-zu-Bild-Generierung durch autoregressive Repräsentationsausrichtung freisetzen
Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment
March 10, 2025
Autoren: Xing Xie, Jiawei Liu, Ziyue Lin, Huijie Fan, Zhi Han, Yandong Tang, Liangqiong Qu
cs.AI
Zusammenfassung
Wir präsentieren Autoregressive Representation Alignment (ARRA), ein neues Trainingsframework, das global kohärente Text-zu-Bild-Generierung in autoregressiven LLMs ohne architektonische Änderungen ermöglicht. Im Gegensatz zu früheren Arbeiten, die komplexe architektonische Neugestaltungen erfordern, richtet ARRA die verborgenen Zustände von LLMs mit visuellen Repräsentationen aus externen visuellen Grundlagenmodellen über einen globalen visuellen Ausrichtungsverlust und einen hybriden Token, <HYBNEXT>, aus. Dieser Token erzwingt duale Einschränkungen: lokale Vorhersage des nächsten Tokens und globale semantische Destillation, wodurch LLMs implizit räumliche und kontextuelle Kohärenz lernen können, während sie ihr ursprüngliches autoregressives Paradigma beibehalten. Umfangreiche Experimente bestätigen die Plug-and-Play-Vielseitigkeit von ARRA. Beim Training von LLMs, die nur für die Textgenerierung ausgelegt sind, oder bei zufälliger Initialisierung reduziert ARRA den FID um 25,5 % (MIMIC-CXR), 8,8 % (DeepEyeNet) und 7,5 % (ImageNet) für fortschrittliche autoregressive LLMs wie Chameleon und LlamaGen, alles ohne Framework-Modifikationen. Für die Domänenanpassung richtet ARRA allgemeine LLMs mit spezialisierten Modellen (z. B. BioMedCLIP) aus und erreicht eine FID-Reduktion von 18,6 % gegenüber dem direkten Feinabstimmen auf medizinische Bildgebung (MIMIC-CXR). Indem ARRA zeigt, dass die Neugestaltung des Trainingsziels – nicht nur architektonische Innovation – Herausforderungen der globalen Kohärenz über Modalitäten hinweg lösen kann, bietet es ein komplementäres Paradigma für die Weiterentwicklung autoregressiver Modelle. Code und Modelle werden veröffentlicht, um die autoregressive Bildgenerierung voranzutreiben.
English
We present Autoregressive Representation Alignment (ARRA), a new training
framework that unlocks global-coherent text-to-image generation in
autoregressive LLMs without architectural changes. Unlike prior work that
requires complex architectural redesigns, ARRA aligns LLM hidden states with
visual representations from external visual foundational models via a global
visual alignment loss and a hybrid token, <HYBNEXT>. This token enforces dual
constraints: local next-token prediction and global semantic distillation,
enabling LLMs to implicitly learn spatial and contextual coherence while
retaining their original autoregressive paradigm. Extensive experiments
validate ARRA's plug-and-play versatility. When training from
text-generation-only LLMs or random initialization, ARRA reduces FID by 25.5%
(MIMIC-CXR), 8.8% (DeepEyeNet), and 7.5% (ImageNet) for advanced autoregressive
LLMs like Chameleon and LlamaGen, all without framework modifications. For
domain adaption, ARRA aligns general-purpose LLMs with specialized models
(e.g., BioMedCLIP), achieving an 18.6% FID reduction over direct fine-tuning on
medical imaging (MIMIC-CXR). By demonstrating that training objective redesign
-- not just architectural innovation -- can resolve cross-modal global
coherence challenges, ARRA offers a complementary paradigm for advancing
autoregressive models. Code and models will be released to advance
autoregressive image generation.Summary
AI-Generated Summary