V-Co: Un'analisi approfondita dell'allineamento delle rappresentazioni visive tramite co-dissolvenza del rumore

Abstract

La diffusione nello spazio dei pixel è recentemente riemersa come una valida alternativa alla diffusione latente, consentendo una generazione di alta qualità senza autoencoder preaddestrati. Tuttavia, i modelli standard di diffusione nello spazio dei pixel ricevono una supervisione semantica relativamente debole e non sono progettati esplicitamente per catturare la struttura visiva di alto livello. Metodi recenti di allineamento delle rappresentazioni (ad esempio, REPA) suggeriscono che caratteristiche visive preaddestrate possono migliorare sostanzialmente l'addestramento della diffusione, e la co-denoising visivo è emersa come una direzione promettente per incorporare tali caratteristiche nel processo generativo. Tuttavia, gli approcci di co-denoising esistenti spesso intrecciano scelte progettuali multiple, rendendo poco chiaro quali siano veramente essenziali. Pertanto, presentiamo V-Co, uno studio sistematico del co-denoising visivo in un framework unificato basato su JiT. Questa impostazione controllata ci consente di isolare gli ingredienti che rendono efficace il co-denoising visivo. Il nostro studio rivela quattro ingredienti chiave per un co-denoising visivo efficace. Primo, preservare il calcolo specifico delle caratteristiche abilitando un'interazione flessibile tra flussi motiva un'architettura completamente dual-stream. Secondo, una guida efficace senza classificatore (CFG) richiede una predizione incondizionata strutturalmente definita. Terzo, una supervisione semantica più forte è meglio fornita da una loss ibrida con deriva percettiva. Quarto, un co-denoising stabile richiede inoltre una corretta calibrazione tra flussi, che realizziamo attraverso un riscalamento delle caratteristiche basato su RMS. Insieme, questi risultati forniscono una ricetta semplice per il co-denoising visivo. Esperimenti su ImageNet-256 mostrano che, a dimensioni del modello comparabili, V-Co supera la linea di base della diffusione nello spazio dei pixel sottostante e forti metodi precedenti di diffusione nei pixel, utilizzando al contempo meno epoche di addestramento, offrendo una guida pratica per futuri modelli generativi allineati alle rappresentazioni.

English

Pixel-space diffusion has recently re-emerged as a strong alternative to latent diffusion, enabling high-quality generation without pretrained autoencoders. However, standard pixel-space diffusion models receive relatively weak semantic supervision and are not explicitly designed to capture high-level visual structure. Recent representation-alignment methods (e.g., REPA) suggest that pretrained visual features can substantially improve diffusion training, and visual co-denoising has emerged as a promising direction for incorporating such features into the generative process. However, existing co-denoising approaches often entangle multiple design choices, making it unclear which design choices are truly essential. Therefore, we present V-Co, a systematic study of visual co-denoising in a unified JiT-based framework. This controlled setting allows us to isolate the ingredients that make visual co-denoising effective. Our study reveals four key ingredients for effective visual co-denoising. First, preserving feature-specific computation while enabling flexible cross-stream interaction motivates a fully dual-stream architecture. Second, effective classifier-free guidance (CFG) requires a structurally defined unconditional prediction. Third, stronger semantic supervision is best provided by a perceptual-drifting hybrid loss. Fourth, stable co-denoising further requires proper cross-stream calibration, which we realize through RMS-based feature rescaling. Together, these findings yield a simple recipe for visual co-denoising. Experiments on ImageNet-256 show that, at comparable model sizes, V-Co outperforms the underlying pixel-space diffusion baseline and strong prior pixel-diffusion methods while using fewer training epochs, offering practical guidance for future representation-aligned generative models.

V-Co: Un'analisi approfondita dell'allineamento delle rappresentazioni visive tramite co-dissolvenza del rumore

V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising

Abstract

Support