RepFusion: Использование мультимодальных априорных знаний для шумоподавления в пространстве представлений

Аннотация

Большие языковые модели (LLM) широко используются в системах «текст-в-изображение» (T2I), однако они, как правило, ограничены кодированием текста, в то время как шумоподавление осуществляется недавно обученными генеративными магистралями. Появление автоэнкодеров представлений (RAE) смещает цель генерации в сторону семантически структурированных визуальных представлений, создавая латентное пространство, более совместимое с априорными знаниями предобученных LLM. Вдохновляясь мультимодальными LLM (MLLM), где проектора MLP достаточно для выравнивания чистых визуальных представлений с предобученной LLM, мы перепрофилируем саму MLLM в качестве энкодера зашумленных представлений, распространяя этот механизм с чистых на зашумленные входные данные. Мы представляем RepFusion, который использует результирующие выходы MLLM как сигнал обусловленности для диффузионного трансформера. При контролируемых сравнениях в рамках схожих вычислительных бюджетов при инференсе RepFusion превосходит базовые подходы, выделяющие сопоставимую вычислительную мощность на инициализированные с нуля деноизеры. Эти результаты демонстрируют, что MLLM предоставляют сильные априорные знания для шумоподавления визуальных представлений, и что, обусловливаясь на эволюционирующих зашумленных представлениях, вычислительные ресурсы во время тестирования могут быть продуктивно потрачены на повторное применение MLLM в современных системах T2I.

English

Large language models (LLMs) are widely used in text-to-image (T2I) systems, but they are typically limited to text encoding, while denoising is handled by newly trained generative backbones. The emergence of representation autoencoders (RAEs) shifts the generation target toward semantically structured visual representations, creating a latent space that is more compatible with pretrained LLM priors. Inspired by multimodal LLMs (MLLMs), where an MLP projector is sufficient to align clean visual representations with a pretrained LLM, we repurpose the MLLM itself as a noisy representation encoder, extending this mechanism from clean to noisy inputs. We present RepFusion, which uses the resulting MLLM outputs as the conditioning signal for a diffusion transformer. In controlled comparisons at similar inference budgets, RepFusion outperforms baselines that devote comparable capacity to newly initialized denoisers. These results demonstrate that MLLMs provide strong priors for denoising visual representations and that, by conditioning on evolving noisy representations, test-time compute can be productively spent on repeated MLLM conditioning in modern T2I systems.