V-Co: Un análisis detallado de la alineación de representaciones visuales mediante co-descenso de ruido
V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising
March 17, 2026
Autores: Han Lin, Xichen Pan, Zun Wang, Yue Zhang, Chu Wang, Jaemin Cho, Mohit Bansal
cs.AI
Resumen
La difusión en espacio de píxeles ha reaparecido recientemente como una alternativa sólida a la difusión latente, permitiendo una generación de alta calidad sin auto codificadores preentrenados. Sin embargo, los modelos estándar de difusión en espacio de píxeles reciben una supervisión semántica relativamente débil y no están diseñados explícitamente para capturar estructuras visuales de alto nivel. Métodos recientes de alineación de representaciones (por ejemplo, REPA) sugieren que las características visuales preentrenadas pueden mejorar sustancialmente el entrenamiento de difusión, y la co-difuminación visual ha surgido como una dirección prometedora para incorporar dichas características en el proceso generativo. No obstante, los enfoques de co-difuminación existentes a menudo entrelazan múltiples decisiones de diseño, lo que dificulta identificar qué elecciones son verdaderamente esenciales. Por lo tanto, presentamos V-Co, un estudio sistemático de la co-difuminación visual en un marco unificado basado en JiT (Just-in-Time). Este entorno controlado nos permite aislar los ingredientes que hacen efectiva la co-difuminación visual. Nuestro estudio revela cuatro ingredientes clave para una co-difuminación visual efectiva. Primero, preservar el cálculo específico de características permitiendo una interacción flexible entre flujos motiva una arquitectura completamente de doble flujo. Segundo, una guía efectiva libre de clasificador (CFG) requiere una predicción incondicional estructuralmente definida. Tercero, la mejor manera de proporcionar una supervisión semántica más fuerte es mediante una pérdida híbrida de deriva perceptual. Cuarto, una co-difuminación estable requiere además una calibración adecuada entre flujos, que logramos mediante un reescalado de características basado en RMS. En conjunto, estos hallazgos ofrecen una receta simple para la co-difuminación visual. Los experimentos en ImageNet-256 muestran que, con tamaños de modelo comparables, V-Co supera la línea base subyacente de difusión en espacio de píxeles y métodos previos sólidos de difusión en píxeles, utilizando además menos épocas de entrenamiento, lo que ofrece una guía práctica para futuros modelos generativos alineados con representaciones.
English
Pixel-space diffusion has recently re-emerged as a strong alternative to latent diffusion, enabling high-quality generation without pretrained autoencoders. However, standard pixel-space diffusion models receive relatively weak semantic supervision and are not explicitly designed to capture high-level visual structure. Recent representation-alignment methods (e.g., REPA) suggest that pretrained visual features can substantially improve diffusion training, and visual co-denoising has emerged as a promising direction for incorporating such features into the generative process. However, existing co-denoising approaches often entangle multiple design choices, making it unclear which design choices are truly essential. Therefore, we present V-Co, a systematic study of visual co-denoising in a unified JiT-based framework. This controlled setting allows us to isolate the ingredients that make visual co-denoising effective. Our study reveals four key ingredients for effective visual co-denoising. First, preserving feature-specific computation while enabling flexible cross-stream interaction motivates a fully dual-stream architecture. Second, effective classifier-free guidance (CFG) requires a structurally defined unconditional prediction. Third, stronger semantic supervision is best provided by a perceptual-drifting hybrid loss. Fourth, stable co-denoising further requires proper cross-stream calibration, which we realize through RMS-based feature rescaling. Together, these findings yield a simple recipe for visual co-denoising. Experiments on ImageNet-256 show that, at comparable model sizes, V-Co outperforms the underlying pixel-space diffusion baseline and strong prior pixel-diffusion methods while using fewer training epochs, offering practical guidance for future representation-aligned generative models.