Раскрытие потенциала больших языковых моделей для генерации изображений из текста через авторегрессионное выравнивание представлений
Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment
March 10, 2025
Авторы: Xing Xie, Jiawei Liu, Ziyue Lin, Huijie Fan, Zhi Han, Yandong Tang, Liangqiong Qu
cs.AI
Аннотация
Мы представляем Autoregressive Representation Alignment (ARRA) — новый фреймворк обучения, который обеспечивает глобально-согласованную генерацию изображений из текста в авторегрессионных языковых моделях (LLM) без изменения архитектуры. В отличие от предыдущих работ, требующих сложных архитектурных переделок, ARRA выравнивает скрытые состояния LLM с визуальными представлениями из внешних визуальных базовых моделей с помощью глобальной функции потерь визуального выравнивания и гибридного токена <HYBNEXT>. Этот токен накладывает двойные ограничения: локальное предсказание следующего токена и глобальную семантическую дистилляцию, позволяя LLM неявно изучать пространственную и контекстуальную согласованность, сохраняя при этом исходный авторегрессионный подход. Многочисленные эксперименты подтверждают универсальность ARRA в режиме "подключи и работай". При обучении LLM, изначально предназначенных только для генерации текста, или при случайной инициализации, ARRA снижает FID на 25,5% (MIMIC-CXR), 8,8% (DeepEyeNet) и 7,5% (ImageNet) для продвинутых авторегрессионных LLM, таких как Chameleon и LlamaGen, без изменений фреймворка. Для адаптации к домену ARRA выравнивает универсальные LLM со специализированными моделями (например, BioMedCLIP), достигая снижения FID на 18,6% по сравнению с прямой тонкой настройкой на медицинских изображениях (MIMIC-CXR). Показывая, что пересмотр целей обучения, а не только архитектурные инновации, может решить проблемы глобальной согласованности в кросс-модальных задачах, ARRA предлагает дополнительный подход для развития авторегрессионных моделей. Код и модели будут опубликованы для продвижения генерации изображений в авторегрессионных моделях.
English
We present Autoregressive Representation Alignment (ARRA), a new training
framework that unlocks global-coherent text-to-image generation in
autoregressive LLMs without architectural changes. Unlike prior work that
requires complex architectural redesigns, ARRA aligns LLM hidden states with
visual representations from external visual foundational models via a global
visual alignment loss and a hybrid token, <HYBNEXT>. This token enforces dual
constraints: local next-token prediction and global semantic distillation,
enabling LLMs to implicitly learn spatial and contextual coherence while
retaining their original autoregressive paradigm. Extensive experiments
validate ARRA's plug-and-play versatility. When training from
text-generation-only LLMs or random initialization, ARRA reduces FID by 25.5%
(MIMIC-CXR), 8.8% (DeepEyeNet), and 7.5% (ImageNet) for advanced autoregressive
LLMs like Chameleon and LlamaGen, all without framework modifications. For
domain adaption, ARRA aligns general-purpose LLMs with specialized models
(e.g., BioMedCLIP), achieving an 18.6% FID reduction over direct fine-tuning on
medical imaging (MIMIC-CXR). By demonstrating that training objective redesign
-- not just architectural innovation -- can resolve cross-modal global
coherence challenges, ARRA offers a complementary paradigm for advancing
autoregressive models. Code and models will be released to advance
autoregressive image generation.Summary
AI-Generated Summary