RepFusion: Aprovechando Conocimientos Previos Multimodales para la Eliminación de Ruido en el Espacio de Representación

Resumen

Los grandes modelos de lenguaje (LLMs) son ampliamente utilizados en sistemas de texto a imagen (T2I), pero normalmente se limitan a la codificación de texto, mientras que la eliminación de ruido es manejada por backbones generativos recién entrenados. La aparición de los autoencoders de representación (RAEs) desplaza el objetivo de generación hacia representaciones visuales semánticamente estructuradas, creando un espacio latente más compatible con las priorizaciones de LLMs preentrenados. Inspirándonos en los LLMs multimodales (MLLMs), donde un proyector MLP es suficiente para alinear representaciones visuales limpias con un LLM preentrenado, reutilizamos el propio MLLM como codificador de representaciones ruidosas, extendiendo este mecanismo de entradas limpias a ruidosas. Presentamos RepFusion, que utiliza las salidas resultantes del MLLM como señal de condicionamiento para un transformador de difusión. En comparaciones controladas con presupuestos de inferencia similares, RepFusion supera a las líneas base que dedican una capacidad comparable a eliminadores de ruido recién inicializados. Estos resultados demuestran que los MLLMs proporcionan fuertes priorizaciones para la eliminación de ruido de representaciones visuales y que, al condicionar sobre representaciones ruidosas en evolución, el cómputo en tiempo de prueba puede invertirse de manera productiva en el condicionamiento repetido de MLLM en sistemas T2I modernos.

English

Large language models (LLMs) are widely used in text-to-image (T2I) systems, but they are typically limited to text encoding, while denoising is handled by newly trained generative backbones. The emergence of representation autoencoders (RAEs) shifts the generation target toward semantically structured visual representations, creating a latent space that is more compatible with pretrained LLM priors. Inspired by multimodal LLMs (MLLMs), where an MLP projector is sufficient to align clean visual representations with a pretrained LLM, we repurpose the MLLM itself as a noisy representation encoder, extending this mechanism from clean to noisy inputs. We present RepFusion, which uses the resulting MLLM outputs as the conditioning signal for a diffusion transformer. In controlled comparisons at similar inference budgets, RepFusion outperforms baselines that devote comparable capacity to newly initialized denoisers. These results demonstrate that MLLMs provide strong priors for denoising visual representations and that, by conditioning on evolving noisy representations, test-time compute can be productively spent on repeated MLLM conditioning in modern T2I systems.