ChatPaper.aiChatPaper

Libérer le potentiel des grands modèles de langage pour la génération texte-image grâce à l'alignement autoregressif des représentations

Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment

March 10, 2025
Auteurs: Xing Xie, Jiawei Liu, Ziyue Lin, Huijie Fan, Zhi Han, Yandong Tang, Liangqiong Qu
cs.AI

Résumé

Nous présentons Autoregressive Representation Alignment (ARRA), un nouveau cadre d'entraînement qui permet une génération texte-image globalement cohérente dans les LLMs autoregressifs sans modifications architecturales. Contrairement aux travaux antérieurs nécessitant des redéploiements architecturaux complexes, ARRA aligne les états cachés des LLMs avec des représentations visuelles issues de modèles visuels fondamentaux externes via une perte d'alignement visuel global et un jeton hybride, <HYBNEXT>. Ce jeton impose des contraintes duales : prédiction locale du prochain jeton et distillation sémantique globale, permettant aux LLMs d'apprendre implicitement la cohérence spatiale et contextuelle tout en conservant leur paradigme autoregressif d'origine. Des expériences approfondies valident la polyvalence plug-and-play d'ARRA. Lors de l'entraînement à partir de LLMs uniquement dédiés à la génération de texte ou d'une initialisation aléatoire, ARRA réduit le FID de 25,5 % (MIMIC-CXR), 8,8 % (DeepEyeNet) et 7,5 % (ImageNet) pour des LLMs autoregressifs avancés comme Chameleon et LlamaGen, le tout sans modifications du cadre. Pour l'adaptation de domaine, ARRA aligne les LLMs généralistes avec des modèles spécialisés (par exemple, BioMedCLIP), obtenant une réduction de 18,6 % du FID par rapport au fine-tuning direct sur l'imagerie médicale (MIMIC-CXR). En démontrant que la refonte des objectifs d'entraînement — et pas seulement l'innovation architecturale — peut résoudre les défis de cohérence globale intermodale, ARRA propose un paradigme complémentaire pour faire progresser les modèles autoregressifs. Le code et les modèles seront publiés pour faire avancer la génération d'images autoregressive.
English
We present Autoregressive Representation Alignment (ARRA), a new training framework that unlocks global-coherent text-to-image generation in autoregressive LLMs without architectural changes. Unlike prior work that requires complex architectural redesigns, ARRA aligns LLM hidden states with visual representations from external visual foundational models via a global visual alignment loss and a hybrid token, <HYBNEXT>. This token enforces dual constraints: local next-token prediction and global semantic distillation, enabling LLMs to implicitly learn spatial and contextual coherence while retaining their original autoregressive paradigm. Extensive experiments validate ARRA's plug-and-play versatility. When training from text-generation-only LLMs or random initialization, ARRA reduces FID by 25.5% (MIMIC-CXR), 8.8% (DeepEyeNet), and 7.5% (ImageNet) for advanced autoregressive LLMs like Chameleon and LlamaGen, all without framework modifications. For domain adaption, ARRA aligns general-purpose LLMs with specialized models (e.g., BioMedCLIP), achieving an 18.6% FID reduction over direct fine-tuning on medical imaging (MIMIC-CXR). By demonstrating that training objective redesign -- not just architectural innovation -- can resolve cross-modal global coherence challenges, ARRA offers a complementary paradigm for advancing autoregressive models. Code and models will be released to advance autoregressive image generation.

Summary

AI-Generated Summary

PDF161March 11, 2025