Liberare il Potenziale dei Modelli Linguistici di Grande Scala per la Generazione di Immagini da Testo tramite Allineamento Rappresentazionale Autoregressivo
Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment
March 10, 2025
Autori: Xing Xie, Jiawei Liu, Ziyue Lin, Huijie Fan, Zhi Han, Yandong Tang, Liangqiong Qu
cs.AI
Abstract
Presentiamo Autoregressive Representation Alignment (ARRA), un nuovo framework di addestramento che abilita la generazione di immagini da testo con coerenza globale nei modelli linguistici autoregressivi (LLM) senza modifiche architetturali. A differenza di lavori precedenti che richiedevano complesse riprogettazioni architetturali, ARRA allinea gli stati nascosti degli LLM con rappresentazioni visive provenienti da modelli visivi fondazionali esterni attraverso una perdita di allineamento visivo globale e un token ibrido, <HYBNEXT>. Questo token impone un duplice vincolo: la previsione locale del token successivo e la distillazione semantica globale, consentendo agli LLM di apprendere implicitamente coerenza spaziale e contestuale mantenendo il loro paradigma autoregressivo originale. Esperimenti estensivi validano la versatilità plug-and-play di ARRA. Quando si addestrano LLM inizialmente progettati solo per la generazione di testo o partendo da inizializzazioni casuali, ARRA riduce l'FID del 25,5% (MIMIC-CXR), 8,8% (DeepEyeNet) e 7,5% (ImageNet) per LLM autoregressivi avanzati come Chameleon e LlamaGen, tutto senza modifiche al framework. Per l'adattamento di dominio, ARRA allinea LLM generici con modelli specializzati (ad esempio, BioMedCLIP), ottenendo una riduzione dell'FID del 18,6% rispetto al fine-tuning diretto su immagini mediche (MIMIC-CXR). Dimostrando che la riprogettazione dell'obiettivo di addestramento — non solo l'innovazione architetturale — può risolvere le sfide di coerenza globale cross-modale, ARRA offre un paradigma complementare per l'avanzamento dei modelli autoregressivi. Codice e modelli saranno rilasciati per promuovere la generazione di immagini autoregressiva.
English
We present Autoregressive Representation Alignment (ARRA), a new training
framework that unlocks global-coherent text-to-image generation in
autoregressive LLMs without architectural changes. Unlike prior work that
requires complex architectural redesigns, ARRA aligns LLM hidden states with
visual representations from external visual foundational models via a global
visual alignment loss and a hybrid token, <HYBNEXT>. This token enforces dual
constraints: local next-token prediction and global semantic distillation,
enabling LLMs to implicitly learn spatial and contextual coherence while
retaining their original autoregressive paradigm. Extensive experiments
validate ARRA's plug-and-play versatility. When training from
text-generation-only LLMs or random initialization, ARRA reduces FID by 25.5%
(MIMIC-CXR), 8.8% (DeepEyeNet), and 7.5% (ImageNet) for advanced autoregressive
LLMs like Chameleon and LlamaGen, all without framework modifications. For
domain adaption, ARRA aligns general-purpose LLMs with specialized models
(e.g., BioMedCLIP), achieving an 18.6% FID reduction over direct fine-tuning on
medical imaging (MIMIC-CXR). By demonstrating that training objective redesign
-- not just architectural innovation -- can resolve cross-modal global
coherence challenges, ARRA offers a complementary paradigm for advancing
autoregressive models. Code and models will be released to advance
autoregressive image generation.Summary
AI-Generated Summary