V-Co: Uma Análise Aprofundada do Alinhamento de Representações Visuais via Co-Desruição de Ruído

Resumo

A difusão no espaço de pixels ressurgiu recentemente como uma forte alternativa à difusão latente, permitindo geração de alta qualidade sem autoencoders pré-treinados. No entanto, os modelos padrão de difusão no espaço de pixels recebem supervisão semântica relativamente fraca e não são explicitamente projetados para capturar estrutura visual de alto nível. Métodos recentes de alinhamento de representações (ex: REPA) sugerem que características visuais pré-treinadas podem melhorar substancialmente o treinamento de difusão, e a co-desnificação visual emergiu como uma direção promissora para incorporar tais características no processo generativo. Contudo, abordagens existentes de co-desnificação frequentemente envolvem múltiplas escolhas de projeto, tornando incerto quais escolhas são verdadeiramente essenciais. Portanto, apresentamos o V-Co, um estudo sistemático de co-desnificação visual numa estrutura unificada baseada em JiT. Este ambiente controlado permite-nos isolar os ingredientes que tornam a co-desnificação visual eficaz. Nosso estudo revela quatro ingredientes-chave para uma co-desnificação visual eficaz. Primeiro, preservar computação específica de características enquanto permite interação flexível entre fluxos motiva uma arquitetura totalmente de fluxo dual. Segundo, uma orientação eficaz sem classificador (CFG) requer uma previsão incondicional estruturalmente definida. Terceiro, supervisão semântica mais forte é melhor fornecida por uma perda híbrida de deriva perceptual. Quarto, co-desnificação estável requer ainda uma calibração adequada entre fluxos, que realizamos através de reescalonamento de características baseado em RMS. Juntas, estas descobertas produzem uma receita simples para co-desnificação visual. Experimentos no ImageNet-256 mostram que, em tamanhos de modelo comparáveis, o V-Co supera a linha de base de difusão no espaço de pixels subjacente e métodos prévios fortes de difusão em pixels, usando menos épocas de treinamento, oferecendo orientação prática para futuros modelos generativos alinhados por representação.

English

Pixel-space diffusion has recently re-emerged as a strong alternative to latent diffusion, enabling high-quality generation without pretrained autoencoders. However, standard pixel-space diffusion models receive relatively weak semantic supervision and are not explicitly designed to capture high-level visual structure. Recent representation-alignment methods (e.g., REPA) suggest that pretrained visual features can substantially improve diffusion training, and visual co-denoising has emerged as a promising direction for incorporating such features into the generative process. However, existing co-denoising approaches often entangle multiple design choices, making it unclear which design choices are truly essential. Therefore, we present V-Co, a systematic study of visual co-denoising in a unified JiT-based framework. This controlled setting allows us to isolate the ingredients that make visual co-denoising effective. Our study reveals four key ingredients for effective visual co-denoising. First, preserving feature-specific computation while enabling flexible cross-stream interaction motivates a fully dual-stream architecture. Second, effective classifier-free guidance (CFG) requires a structurally defined unconditional prediction. Third, stronger semantic supervision is best provided by a perceptual-drifting hybrid loss. Fourth, stable co-denoising further requires proper cross-stream calibration, which we realize through RMS-based feature rescaling. Together, these findings yield a simple recipe for visual co-denoising. Experiments on ImageNet-256 show that, at comparable model sizes, V-Co outperforms the underlying pixel-space diffusion baseline and strong prior pixel-diffusion methods while using fewer training epochs, offering practical guidance for future representation-aligned generative models.

V-Co: Uma Análise Aprofundada do Alinhamento de Representações Visuais via Co-Desruição de Ruído

V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising

Resumo

Support