RepFusion: Nutzung multimodaler Priors zur Entrauschung im Repräsentationsraum

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) werden häufig in Text-zu-Bild-Systemen (T2I) eingesetzt, sind jedoch typischerweise auf die Textkodierung beschränkt, während die Entrauschung von neu trainierten generativen Backbones übernommen wird. Die Entwicklung von Repräsentations-Autoencodern (RAEs) verlagert das Generierungsziel hin zu semantisch strukturierten visuellen Repräsentationen und schafft einen latenten Raum, der besser mit vortrainierten LLM-Priors kompatibel ist. Inspiriert von multimodalen LLMs (MLLMs), bei denen ein MLP-Projektor ausreicht, um saubere visuelle Repräsentationen mit einem vortrainierten LLM auszurichten, nutzen wir das MLLM selbst als verrauschten Repräsentationsencoder um, indem wir diesen Mechanismus von sauberen auf verrauschte Eingaben erweitern. Wir stellen RepFusion vor, das die resultierenden MLLM-Ausgaben als Konditionierungssignal für einen Diffusionstransformator verwendet. In kontrollierten Vergleichen mit ähnlichen Inferenzbudgets übertrifft RepFusion Basislinien, die vergleichbare Kapazität für neu initialisierte Entrauscher aufwenden. Diese Ergebnisse zeigen, dass MLLMs starke A-priori-Annahmen für die Entrauschung visueller Repräsentationen liefern und dass durch Konditionierung auf sich entwickelnde verrauschte Repräsentationen die Berechnung zur Testzeit produktiv für wiederholte MLLM-Konditionierung in modernen T2I-Systemen eingesetzt werden kann.

English

Large language models (LLMs) are widely used in text-to-image (T2I) systems, but they are typically limited to text encoding, while denoising is handled by newly trained generative backbones. The emergence of representation autoencoders (RAEs) shifts the generation target toward semantically structured visual representations, creating a latent space that is more compatible with pretrained LLM priors. Inspired by multimodal LLMs (MLLMs), where an MLP projector is sufficient to align clean visual representations with a pretrained LLM, we repurpose the MLLM itself as a noisy representation encoder, extending this mechanism from clean to noisy inputs. We present RepFusion, which uses the resulting MLLM outputs as the conditioning signal for a diffusion transformer. In controlled comparisons at similar inference budgets, RepFusion outperforms baselines that devote comparable capacity to newly initialized denoisers. These results demonstrate that MLLMs provide strong priors for denoising visual representations and that, by conditioning on evolving noisy representations, test-time compute can be productively spent on repeated MLLM conditioning in modern T2I systems.