V-Co: Более детальный взгляд на согласование визуальных представлений через совместное шумоподавление

Аннотация

В последнее время диффузия в пространстве пикселей вновь стала серьезной альтернативой латентной диффузии, позволяя получать высококачественные изображения без использования предварительно обученных автоэнкодеров. Однако стандартные модели диффузии в пространстве пикселей получают относительно слабую семантическую супервизию и не предназначены явным образом для захвата высокоуровневой визуальной структуры. Недавние методы выравнивания представлений (например, REPA) показывают, что предобученные визуальные признаки могут существенно улучшить обучение диффузии, а визуальное совместное шумоподавление стало перспективным направлением для интеграции таких признаков в генеративный процесс. Однако существующие подходы к совместному шумоподавлению часто объединяют несколько проектных решений, что затрудняет определение действительно ключевых из них. Поэтому мы представляем V-Co — систематическое исследование визуального совместного шумоподавления в единой JiT-основанной структуре. Этот контролируемый подход позволяет нам выявить компоненты, обеспечивающие эффективность визуального совместного шумоподавления. Наше исследование выявляет четыре ключевых компонента для эффективного визуального совместного шумоподавления. Во-первых, сохранение специфичных для признаков вычислений при обеспечении гибкого межпотокового взаимодействия требует полностью двухпоточной архитектуры. Во-вторых, эффективное управление без классификатора требует структурно определенного безусловного предсказания. В-третьих, более сильная семантическая супервизия лучше всего обеспечивается гибридной потерей с учетом перцептивного дрейфа. В-четвертых, стабильное совместное шумоподавление дополнительно требует надлежащей калибровки между потоками, которую мы реализуем через масштабирование признаков на основе RMS. В совокупности эти результаты дают простой рецепт для визуального совместного шумоподавления. Эксперименты на ImageNet-256 показывают, что при сравнимых размерах моделей V-Co превосходит базовую модель диффузии в пространстве пикселей и сильные prior-методы пиксельной диффузии, используя при этом меньше эпох обучения, что предлагает практическое руководство для будущих генеративных моделей с выровненными представлениями.

English

Pixel-space diffusion has recently re-emerged as a strong alternative to latent diffusion, enabling high-quality generation without pretrained autoencoders. However, standard pixel-space diffusion models receive relatively weak semantic supervision and are not explicitly designed to capture high-level visual structure. Recent representation-alignment methods (e.g., REPA) suggest that pretrained visual features can substantially improve diffusion training, and visual co-denoising has emerged as a promising direction for incorporating such features into the generative process. However, existing co-denoising approaches often entangle multiple design choices, making it unclear which design choices are truly essential. Therefore, we present V-Co, a systematic study of visual co-denoising in a unified JiT-based framework. This controlled setting allows us to isolate the ingredients that make visual co-denoising effective. Our study reveals four key ingredients for effective visual co-denoising. First, preserving feature-specific computation while enabling flexible cross-stream interaction motivates a fully dual-stream architecture. Second, effective classifier-free guidance (CFG) requires a structurally defined unconditional prediction. Third, stronger semantic supervision is best provided by a perceptual-drifting hybrid loss. Fourth, stable co-denoising further requires proper cross-stream calibration, which we realize through RMS-based feature rescaling. Together, these findings yield a simple recipe for visual co-denoising. Experiments on ImageNet-256 show that, at comparable model sizes, V-Co outperforms the underlying pixel-space diffusion baseline and strong prior pixel-diffusion methods while using fewer training epochs, offering practical guidance for future representation-aligned generative models.

V-Co: Более детальный взгляд на согласование визуальных представлений через совместное шумоподавление

V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising

Аннотация

Support