RepFusion: Aproveitando Priores Multimodais para Remoção de Ruído no Espaço de Representação

Resumo

Grandes modelos de linguagem (LLMs) são amplamente utilizados em sistemas de texto para imagem (T2I), mas geralmente se limitam à codificação de texto, enquanto a remoção de ruído é tratada por backbones generativos recém-treinados. O surgimento de autoencoders de representação (RAEs) desloca o objetivo da geração para representações visuais semanticamente estruturadas, criando um espaço latente mais compatível com priors de LLMs pré-treinados. Inspirados por LLMs multimodais (MLLMs), onde um projetor MLP é suficiente para alinhar representações visuais limpas com um LLM pré-treinado, reaproveitamos o próprio MLLM como um codificador de representação ruidosa, estendendo esse mecanismo de entradas limpas para entradas ruidosas. Apresentamos o RepFusion, que utiliza as saídas resultantes do MLLM como sinal de condicionamento para um transformador de difusão. Em comparações controladas com orçamentos de inferência semelhantes, o RepFusion supera as linhas de base que dedicam capacidade comparável a removedores de ruído recém-inicializados. Esses resultados demonstram que MLLMs fornecem priors fortes para a remoção de ruído de representações visuais e que, ao condicionar representações ruidosas em evolução, o poder computacional em tempo de teste pode ser gasto produtivamente em condicionamento repetido do MLLM em sistemas T2I modernos.

English

Large language models (LLMs) are widely used in text-to-image (T2I) systems, but they are typically limited to text encoding, while denoising is handled by newly trained generative backbones. The emergence of representation autoencoders (RAEs) shifts the generation target toward semantically structured visual representations, creating a latent space that is more compatible with pretrained LLM priors. Inspired by multimodal LLMs (MLLMs), where an MLP projector is sufficient to align clean visual representations with a pretrained LLM, we repurpose the MLLM itself as a noisy representation encoder, extending this mechanism from clean to noisy inputs. We present RepFusion, which uses the resulting MLLM outputs as the conditioning signal for a diffusion transformer. In controlled comparisons at similar inference budgets, RepFusion outperforms baselines that devote comparable capacity to newly initialized denoisers. These results demonstrate that MLLMs provide strong priors for denoising visual representations and that, by conditioning on evolving noisy representations, test-time compute can be productively spent on repeated MLLM conditioning in modern T2I systems.