V-Co: Ein genauerer Blick auf die visuelle Repräsentationsausrichtung durch gemeinsames Entrauschen

Zusammenfassung

Pixel-Space-Diffusion hat sich kürzlich wieder als starke Alternative zur latenten Diffusion etabliert und ermöglicht hochwertige Generierung ohne vortrainierte Autoencoder. Allerdings erhalten Standard-Pixel-Space-Diffusionsmodelle eine relativ schwache semantische Überwachung und sind nicht explizit darauf ausgelegt, hochlevelige visuelle Strukturen zu erfassen. Neuere Repräsentationsalignierungsmethoden (z.B. REPA) legen nahe, dass vortrainierte visuelle Merkmale das Diffusionstraining erheblich verbessern können, und visuelles Co-Denoising hat sich als vielversprechende Richtung erwiesen, um solche Merkmale in den Generierungsprozess zu integrieren. Bisherige Co-Denoising-Ansätze verknüpfen jedoch oft mehrere Designentscheidungen, sodass unklar bleibt, welche Entscheidungen wirklich entscheidend sind. Daher präsentieren wir V-Co, eine systematische Untersuchung des visuellen Co-Denoising in einem vereinheitlichten JiT-basierten Framework. Diese kontrollierte Umgebung ermöglicht es uns, die Komponenten zu isolieren, die visuelles Co-Denoising effektiv machen. Unsere Studie identifiziert vier Schlüsselkomponenten für effektives visuelles Co-Denoising. Erstens: Die Bewahrung merkmals-spezifischer Berechnungen bei gleichzeitiger Ermöglichung flexibler Cross-Stream-Interaktion motiviert eine vollständige Dual-Stream-Architektur. Zweitens: Effektive Classifier-Free Guidance (CFG) erfordert eine strukturell definierte unbedingte Vorhersage. Drittens: Stärkere semantische Überwachung wird am besten durch einen hybriden Perceptual-Drifting-Loss bereitgestellt. Viertens: Stabileres Co-Denoising erfordert zudem eine geeichte Cross-Stream-Integration, die wir durch RMS-basierte Merkmalsskalierung realisieren. Zusammengenommen ergeben diese Erkenntnisse ein einfaches Rezept für visuelles Co-Denoising. Experimente auf ImageNet-256 zeigen, dass V-Co bei vergleichbarer Modellgröße die zugrundeliegende Pixel-Space-Diffusion-Baseline und starke bisherige Pixel-Diffusion-Methoden übertrifft, dabei weniger Trainingsepochen benötigt und praktische Leitlinien für zukünftige repräsentationsalignierte Generative Modelle bietet.

English

Pixel-space diffusion has recently re-emerged as a strong alternative to latent diffusion, enabling high-quality generation without pretrained autoencoders. However, standard pixel-space diffusion models receive relatively weak semantic supervision and are not explicitly designed to capture high-level visual structure. Recent representation-alignment methods (e.g., REPA) suggest that pretrained visual features can substantially improve diffusion training, and visual co-denoising has emerged as a promising direction for incorporating such features into the generative process. However, existing co-denoising approaches often entangle multiple design choices, making it unclear which design choices are truly essential. Therefore, we present V-Co, a systematic study of visual co-denoising in a unified JiT-based framework. This controlled setting allows us to isolate the ingredients that make visual co-denoising effective. Our study reveals four key ingredients for effective visual co-denoising. First, preserving feature-specific computation while enabling flexible cross-stream interaction motivates a fully dual-stream architecture. Second, effective classifier-free guidance (CFG) requires a structurally defined unconditional prediction. Third, stronger semantic supervision is best provided by a perceptual-drifting hybrid loss. Fourth, stable co-denoising further requires proper cross-stream calibration, which we realize through RMS-based feature rescaling. Together, these findings yield a simple recipe for visual co-denoising. Experiments on ImageNet-256 show that, at comparable model sizes, V-Co outperforms the underlying pixel-space diffusion baseline and strong prior pixel-diffusion methods while using fewer training epochs, offering practical guidance for future representation-aligned generative models.

V-Co: Ein genauerer Blick auf die visuelle Repräsentationsausrichtung durch gemeinsames Entrauschen

V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising

Zusammenfassung

Support