V-Co: Een diepere blik op visuele representatie-uitlijning via co-denoisen

Samenvatting

Pixelruimte-diffusie is recentelijk opnieuw naar voren gekomen als een sterk alternatief voor latente diffusie, waardoor hoogwaardige generatie mogelijk wordt zonder voorgetrainde auto-encoders. Standaard pixelruimte-diffusiemodellen ontvangen echter relatief zwakke semantische supervisie en zijn niet expliciet ontworpen om hoogwaardige visuele structuren vast te leggen. Recente representatie-uitlijningsmethoden (zoals REPA) suggereren dat voorgetrainde visuele kenmerken de diffusietraining aanzienlijk kunnen verbeteren, en visuele co-denoisering is naar voren gekomen als een veelbelovende richting voor het integreren van dergelijke kenmerken in het generatieve proces. Bestaande co-denoiseringbenaderingen verstrengelen echter vaak meerdere ontwerpkeuzes, waardoor onduidelijk is welke ontwerpkeuzes werkelijk essentieel zijn. Daarom presenteren wij V-Co, een systematische studie van visuele co-denoisering in een verenigd JiT-gebaseerd raamwerk. Deze gecontroleerde setting stelt ons in staat de ingrediënten die visuele co-denoisering effectief maken, te isoleren. Onze studie onthult vier sleutelingrediënten voor effectieve visuele co-denoisering. Ten eerste motiveert het behoud van kenmerkspecifieke berekening, terwijl flexibele interactie tussen stromen mogelijk wordt gemaakt, een volledig dual-stream architectuur. Ten tweede vereist effectieve classifier-free guidance (CFG) een structureel gedefinieerde onvoorwaardelijke voorspelling. Ten derde wordt sterkere semantische supervisie het beste geboden door een hybride verliesfunctie die perceptuele drift aanpakt. Ten vierde vereist stabiele co-denoisering verder een juiste kalibratie tussen stromen, wat wij realiseren door RMS-gebaseerde kenmerkschaling. Samen leveren deze bevindingen een eenvoudig recept voor visuele co-denoisering. Experimenten op ImageNet-256 tonen aan dat V-Co, bij vergelijkbare modelgroottes, de onderliggende pixelruimte-diffusiebaseline en sterke eerdere pixel-diffusiemethoden overtreft, terwijl minder trainingsepochs worden gebruikt. Dit biedt praktische richtlijnen voor toekomstige representatie-uitgelijnde generatieve modellen.

English

Pixel-space diffusion has recently re-emerged as a strong alternative to latent diffusion, enabling high-quality generation without pretrained autoencoders. However, standard pixel-space diffusion models receive relatively weak semantic supervision and are not explicitly designed to capture high-level visual structure. Recent representation-alignment methods (e.g., REPA) suggest that pretrained visual features can substantially improve diffusion training, and visual co-denoising has emerged as a promising direction for incorporating such features into the generative process. However, existing co-denoising approaches often entangle multiple design choices, making it unclear which design choices are truly essential. Therefore, we present V-Co, a systematic study of visual co-denoising in a unified JiT-based framework. This controlled setting allows us to isolate the ingredients that make visual co-denoising effective. Our study reveals four key ingredients for effective visual co-denoising. First, preserving feature-specific computation while enabling flexible cross-stream interaction motivates a fully dual-stream architecture. Second, effective classifier-free guidance (CFG) requires a structurally defined unconditional prediction. Third, stronger semantic supervision is best provided by a perceptual-drifting hybrid loss. Fourth, stable co-denoising further requires proper cross-stream calibration, which we realize through RMS-based feature rescaling. Together, these findings yield a simple recipe for visual co-denoising. Experiments on ImageNet-256 show that, at comparable model sizes, V-Co outperforms the underlying pixel-space diffusion baseline and strong prior pixel-diffusion methods while using fewer training epochs, offering practical guidance for future representation-aligned generative models.

V-Co: Een diepere blik op visuele representatie-uitlijning via co-denoisen

V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising

Samenvatting

Support