V-Co : Un examen approfondi de l'alignement des représentations visuelles par co-dénonçage

Résumé

La diffusion dans l'espace des pixels a récemment refait surface comme une alternative solide à la diffusion latente, permettant une génération de haute qualité sans autoencodeurs pré-entraînés. Cependant, les modèles de diffusion standards dans l'espace des pixels reçoivent une supervision sémantique relativement faible et ne sont pas explicitement conçus pour capturer la structure visuelle de haut niveau. Les méthodes récentes d'alignement des représentations (par exemple, REPA) suggèrent que les caractéristiques visuelles pré-entraînées peuvent considérablement améliorer l'entraînement par diffusion, et la co-dénaturation visuelle est apparue comme une direction prometteuse pour intégrer de telles caractéristiques dans le processus génératif. Cependant, les approches existantes de co-dénaturation entremêlent souvent plusieurs choix de conception, rendant incertains les choix véritablement essentiels. Par conséquent, nous présentons V-Co, une étude systématique de la co-dénaturation visuelle dans un cadre unifié basé sur JiT (Just-in-Time). Ce cadre contrôlé nous permet d'isoler les ingrédients qui rendent la co-dénaturation visuelle efficace. Notre étude révèle quatre ingrédients clés pour une co-dénaturation visuelle efficace. Premièrement, préserver le calcul spécifique aux caractéristiques tout en permettant une interaction flexible entre les flux motive une architecture entièrement double flux. Deuxièmement, une guidance efficace sans classifieur (CFG) nécessite une prédiction inconditionnelle structurellement définie. Troisièmement, une supervision sémantique plus forte est mieux fournie par une perte hybride à dérive perceptuelle. Quatrièmement, une co-dénaturation stable nécessite en outre un étalonnage approprié entre les flux, que nous réalisons par une renormalisation des caractéristiques basée sur RMS. Ensemble, ces résultats fournissent une recette simple pour la co-dénaturation visuelle. Les expériences sur ImageNet-256 montrent que, pour des tailles de modèles comparables, V-Co surpasse le modèle de référence sous-jacent de diffusion dans l'espace des pixels et les méthodes antérieures solides de diffusion pixel, tout en utilisant moins d'époques d'entraînement, offrant ainsi des conseils pratiques pour les futurs modèles génératifs alignés sur les représentations.

English

Pixel-space diffusion has recently re-emerged as a strong alternative to latent diffusion, enabling high-quality generation without pretrained autoencoders. However, standard pixel-space diffusion models receive relatively weak semantic supervision and are not explicitly designed to capture high-level visual structure. Recent representation-alignment methods (e.g., REPA) suggest that pretrained visual features can substantially improve diffusion training, and visual co-denoising has emerged as a promising direction for incorporating such features into the generative process. However, existing co-denoising approaches often entangle multiple design choices, making it unclear which design choices are truly essential. Therefore, we present V-Co, a systematic study of visual co-denoising in a unified JiT-based framework. This controlled setting allows us to isolate the ingredients that make visual co-denoising effective. Our study reveals four key ingredients for effective visual co-denoising. First, preserving feature-specific computation while enabling flexible cross-stream interaction motivates a fully dual-stream architecture. Second, effective classifier-free guidance (CFG) requires a structurally defined unconditional prediction. Third, stronger semantic supervision is best provided by a perceptual-drifting hybrid loss. Fourth, stable co-denoising further requires proper cross-stream calibration, which we realize through RMS-based feature rescaling. Together, these findings yield a simple recipe for visual co-denoising. Experiments on ImageNet-256 show that, at comparable model sizes, V-Co outperforms the underlying pixel-space diffusion baseline and strong prior pixel-diffusion methods while using fewer training epochs, offering practical guidance for future representation-aligned generative models.

V-Co : Un examen approfondi de l'alignement des représentations visuelles par co-dénonçage

V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising

Résumé

Support