ChatPaper.aiChatPaper

Das Potenzial großer Sprachmodelle für die Text-zu-Bild-Generierung durch autoregressive Repräsentationsausrichtung freisetzen

Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment

March 10, 2025
Autoren: Xing Xie, Jiawei Liu, Ziyue Lin, Huijie Fan, Zhi Han, Yandong Tang, Liangqiong Qu
cs.AI

Zusammenfassung

Wir präsentieren Autoregressive Representation Alignment (ARRA), ein neues Trainingsframework, das global kohärente Text-zu-Bild-Generierung in autoregressiven LLMs ohne architektonische Änderungen ermöglicht. Im Gegensatz zu früheren Arbeiten, die komplexe architektonische Neugestaltungen erfordern, richtet ARRA die verborgenen Zustände von LLMs mit visuellen Repräsentationen aus externen visuellen Grundlagenmodellen über einen globalen visuellen Ausrichtungsverlust und einen hybriden Token, <HYBNEXT>, aus. Dieser Token erzwingt duale Einschränkungen: lokale Vorhersage des nächsten Tokens und globale semantische Destillation, wodurch LLMs implizit räumliche und kontextuelle Kohärenz lernen können, während sie ihr ursprüngliches autoregressives Paradigma beibehalten. Umfangreiche Experimente bestätigen die Plug-and-Play-Vielseitigkeit von ARRA. Beim Training von LLMs, die nur für die Textgenerierung ausgelegt sind, oder bei zufälliger Initialisierung reduziert ARRA den FID um 25,5 % (MIMIC-CXR), 8,8 % (DeepEyeNet) und 7,5 % (ImageNet) für fortschrittliche autoregressive LLMs wie Chameleon und LlamaGen, alles ohne Framework-Modifikationen. Für die Domänenanpassung richtet ARRA allgemeine LLMs mit spezialisierten Modellen (z. B. BioMedCLIP) aus und erreicht eine FID-Reduktion von 18,6 % gegenüber dem direkten Feinabstimmen auf medizinische Bildgebung (MIMIC-CXR). Indem ARRA zeigt, dass die Neugestaltung des Trainingsziels – nicht nur architektonische Innovation – Herausforderungen der globalen Kohärenz über Modalitäten hinweg lösen kann, bietet es ein komplementäres Paradigma für die Weiterentwicklung autoregressiver Modelle. Code und Modelle werden veröffentlicht, um die autoregressive Bildgenerierung voranzutreiben.
English
We present Autoregressive Representation Alignment (ARRA), a new training framework that unlocks global-coherent text-to-image generation in autoregressive LLMs without architectural changes. Unlike prior work that requires complex architectural redesigns, ARRA aligns LLM hidden states with visual representations from external visual foundational models via a global visual alignment loss and a hybrid token, <HYBNEXT>. This token enforces dual constraints: local next-token prediction and global semantic distillation, enabling LLMs to implicitly learn spatial and contextual coherence while retaining their original autoregressive paradigm. Extensive experiments validate ARRA's plug-and-play versatility. When training from text-generation-only LLMs or random initialization, ARRA reduces FID by 25.5% (MIMIC-CXR), 8.8% (DeepEyeNet), and 7.5% (ImageNet) for advanced autoregressive LLMs like Chameleon and LlamaGen, all without framework modifications. For domain adaption, ARRA aligns general-purpose LLMs with specialized models (e.g., BioMedCLIP), achieving an 18.6% FID reduction over direct fine-tuning on medical imaging (MIMIC-CXR). By demonstrating that training objective redesign -- not just architectural innovation -- can resolve cross-modal global coherence challenges, ARRA offers a complementary paradigm for advancing autoregressive models. Code and models will be released to advance autoregressive image generation.

Summary

AI-Generated Summary

PDF161March 11, 2025