ChatPaper.aiChatPaper

Liberando o Potencial dos Modelos de Linguagem de Grande Escala para Geração de Texto para Imagem por meio de Alinhamento Autoregressivo de Representações

Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment

March 10, 2025
Autores: Xing Xie, Jiawei Liu, Ziyue Lin, Huijie Fan, Zhi Han, Yandong Tang, Liangqiong Qu
cs.AI

Resumo

Apresentamos o Alinhamento de Representação Autoregressiva (ARRA), uma nova estrutura de treinamento que desbloqueia a geração de texto-para-imagem globalmente coerente em LLMs autoregressivos sem alterações arquitetônicas. Diferente de trabalhos anteriores que exigem redesenhos arquitetônicos complexos, o ARRA alinha os estados ocultos de LLMs com representações visuais de modelos visuais fundamentais externos por meio de uma perda de alinhamento visual global e um token híbrido, <HYBNEXT>. Esse token impõe duplas restrições: previsão local do próximo token e destilação semântica global, permitindo que os LLMs aprendam implicitamente coerência espacial e contextual enquanto mantêm seu paradigma autoregressivo original. Experimentos extensivos validam a versatilidade plug-and-play do ARRA. Ao treinar a partir de LLMs apenas para geração de texto ou inicialização aleatória, o ARRA reduz o FID em 25,5% (MIMIC-CXR), 8,8% (DeepEyeNet) e 7,5% (ImageNet) para LLMs autoregressivos avançados como Chameleon e LlamaGen, tudo sem modificações na estrutura. Para adaptação de domínio, o ARRA alinha LLMs de propósito geral com modelos especializados (por exemplo, BioMedCLIP), alcançando uma redução de 18,6% no FID em comparação com o ajuste fino direto em imagens médicas (MIMIC-CXR). Ao demonstrar que o redesenho do objetivo de treinamento — não apenas a inovação arquitetônica — pode resolver desafios de coerência global multimodal, o ARRA oferece um paradigma complementar para avançar modelos autoregressivos. Códigos e modelos serão liberados para impulsionar a geração de imagens autoregressivas.
English
We present Autoregressive Representation Alignment (ARRA), a new training framework that unlocks global-coherent text-to-image generation in autoregressive LLMs without architectural changes. Unlike prior work that requires complex architectural redesigns, ARRA aligns LLM hidden states with visual representations from external visual foundational models via a global visual alignment loss and a hybrid token, <HYBNEXT>. This token enforces dual constraints: local next-token prediction and global semantic distillation, enabling LLMs to implicitly learn spatial and contextual coherence while retaining their original autoregressive paradigm. Extensive experiments validate ARRA's plug-and-play versatility. When training from text-generation-only LLMs or random initialization, ARRA reduces FID by 25.5% (MIMIC-CXR), 8.8% (DeepEyeNet), and 7.5% (ImageNet) for advanced autoregressive LLMs like Chameleon and LlamaGen, all without framework modifications. For domain adaption, ARRA aligns general-purpose LLMs with specialized models (e.g., BioMedCLIP), achieving an 18.6% FID reduction over direct fine-tuning on medical imaging (MIMIC-CXR). By demonstrating that training objective redesign -- not just architectural innovation -- can resolve cross-modal global coherence challenges, ARRA offers a complementary paradigm for advancing autoregressive models. Code and models will be released to advance autoregressive image generation.

Summary

AI-Generated Summary

PDF161March 11, 2025