RepFusion : Tirer parti des a priori multimodaux pour le débruitage dans l'espace de représentation

Résumé

Les grands modèles de langage (LLMs) sont largement utilisés dans les systèmes de texte-à-image (T2I), mais ils sont généralement limités à l'encodage du texte, tandis que le débruitage est pris en charge par des architectures génératives nouvellement entraînées. L'émergence des autoencodeurs de représentation (RAEs) déplace l'objectif de génération vers des représentations visuelles sémantiquement structurées, créant un espace latent plus compatible avec les a priori des LLMs pré-entraînés. Inspirés par les LLMs multimodaux (MLLMs), où un projecteur MLP suffit pour aligner des représentations visuelles propres avec un LLM pré-entraîné, nous réutilisons le MLLM lui-même comme encodeur de représentation bruitée, étendant ce mécanisme des entrées propres aux entrées bruitées. Nous présentons RepFusion, qui utilise les sorties résultantes du MLLM comme signal de conditionnement pour un transformateur de diffusion. Dans des comparaisons contrôlées à des budgets d'inférence similaires, RepFusion surpasse les baselines qui consacrent une capacité comparable à des débruitages nouvellement initialisés. Ces résultats démontrent que les MLLMs fournissent des a priori solides pour le débruitage de représentations visuelles et qu'en conditionnant sur des représentations bruitées en évolution, le calcul en phase de test peut être utilisé de manière productive pour un conditionnement répété du MLLM dans les systèmes T2I modernes.

English

Large language models (LLMs) are widely used in text-to-image (T2I) systems, but they are typically limited to text encoding, while denoising is handled by newly trained generative backbones. The emergence of representation autoencoders (RAEs) shifts the generation target toward semantically structured visual representations, creating a latent space that is more compatible with pretrained LLM priors. Inspired by multimodal LLMs (MLLMs), where an MLP projector is sufficient to align clean visual representations with a pretrained LLM, we repurpose the MLLM itself as a noisy representation encoder, extending this mechanism from clean to noisy inputs. We present RepFusion, which uses the resulting MLLM outputs as the conditioning signal for a diffusion transformer. In controlled comparisons at similar inference budgets, RepFusion outperforms baselines that devote comparable capacity to newly initialized denoisers. These results demonstrate that MLLMs provide strong priors for denoising visual representations and that, by conditioning on evolving noisy representations, test-time compute can be productively spent on repeated MLLM conditioning in modern T2I systems.