ChatPaper.aiChatPaper

Desbloqueando el Potencial de los Modelos de Lenguaje de Gran Escala para la Generación de Texto a Imagen mediante Alineación Autoregresiva de Representaciones

Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment

March 10, 2025
Autores: Xing Xie, Jiawei Liu, Ziyue Lin, Huijie Fan, Zhi Han, Yandong Tang, Liangqiong Qu
cs.AI

Resumen

Presentamos Alineación de Representación Autoregresiva (ARRA), un nuevo marco de entrenamiento que permite la generación de imágenes coherentes a nivel global a partir de texto en modelos de lenguaje autoregresivos (LLMs) sin necesidad de cambios arquitectónicos. A diferencia de trabajos anteriores que requieren rediseños arquitectónicos complejos, ARRA alinea los estados ocultos de los LLMs con representaciones visuales de modelos visuales fundamentales externos mediante una pérdida de alineación visual global y un token híbrido, <HYBNEXT>. Este token impone dobles restricciones: predicción local del siguiente token y destilación semántica global, permitiendo que los LLMs aprendan implícitamente coherencia espacial y contextual mientras mantienen su paradigma autoregresivo original. Experimentos exhaustivos validan la versatilidad plug-and-play de ARRA. Al entrenar a partir de LLMs diseñados solo para generación de texto o desde inicialización aleatoria, ARRA reduce el FID en un 25.5% (MIMIC-CXR), 8.8% (DeepEyeNet) y 7.5% (ImageNet) para LLMs autoregresivos avanzados como Chameleon y LlamaGen, todo ello sin modificaciones en el marco. Para la adaptación de dominio, ARRA alinea LLMs de propósito general con modelos especializados (por ejemplo, BioMedCLIP), logrando una reducción del 18.6% en FID sobre el ajuste fino directo en imágenes médicas (MIMIC-CXR). Al demostrar que el rediseño del objetivo de entrenamiento —no solo la innovación arquitectónica— puede resolver los desafíos de coherencia global multimodal, ARRA ofrece un paradigma complementario para avanzar en los modelos autoregresivos. El código y los modelos se liberarán para impulsar la generación de imágenes autoregresivas.
English
We present Autoregressive Representation Alignment (ARRA), a new training framework that unlocks global-coherent text-to-image generation in autoregressive LLMs without architectural changes. Unlike prior work that requires complex architectural redesigns, ARRA aligns LLM hidden states with visual representations from external visual foundational models via a global visual alignment loss and a hybrid token, <HYBNEXT>. This token enforces dual constraints: local next-token prediction and global semantic distillation, enabling LLMs to implicitly learn spatial and contextual coherence while retaining their original autoregressive paradigm. Extensive experiments validate ARRA's plug-and-play versatility. When training from text-generation-only LLMs or random initialization, ARRA reduces FID by 25.5% (MIMIC-CXR), 8.8% (DeepEyeNet), and 7.5% (ImageNet) for advanced autoregressive LLMs like Chameleon and LlamaGen, all without framework modifications. For domain adaption, ARRA aligns general-purpose LLMs with specialized models (e.g., BioMedCLIP), achieving an 18.6% FID reduction over direct fine-tuning on medical imaging (MIMIC-CXR). By demonstrating that training objective redesign -- not just architectural innovation -- can resolve cross-modal global coherence challenges, ARRA offers a complementary paradigm for advancing autoregressive models. Code and models will be released to advance autoregressive image generation.

Summary

AI-Generated Summary

PDF161March 11, 2025