Совместно эволюционирующие репрезентации в диффузионных моделях изображений и признаков

Аннотация

Совместное генеративное моделирование изображений и признаков недавно стало эффективной стратегией улучшения обучения диффузионных моделей за счет сочетания низкоуровневых латентных переменных VAE с высокоуровневыми семантическими признаками, извлеченными из предобученных визуальных кодировщиков. Однако существующие подходы опираются на фиксированное пространство представлений, построенное независимо от генеративной цели и остающееся неизменным в процессе обучения. Мы полагаем, что пространство представлений, направляющее диффузию, должно адаптироваться к генеративной задаче. С этой целью мы предлагаем Coevolving Representation Diffusion (CoReDi) — фреймворк, в котором семантическое пространство представлений эволюционирует в ходе обучения посредством совместного изучения легковесной линейной проекции вместе с диффузионной моделью. Хотя наивная оптимизация этой проекции приводит к вырожденным решениям, мы показываем, что стабильная коэволюция может быть достигнута за счет комбинации стоп-градиентных целей, нормализации и целевой регуляризации, предотвращающей коллапс признаков. Данная формулировка позволяет семантическому пространству постепенно специализироваться под задачи синтеза изображений, улучшая его комплементарность с латентными переменными изображений. Мы применяем CoReDi как к латентной диффузии VAE, так и к пиксельной диффузии, демонстрируя, что адаптивные семантические представления улучшают генеративное моделирование в обоих сценариях. Эксперименты показывают, что CoReDi достигает более быстрой сходимости и более высокого качества образцов по сравнению с совместными диффузионными моделями, работающими в фиксированных пространствах представлений.

English

Joint image-feature generative modeling has recently emerged as an effective strategy for improving diffusion training by coupling low-level VAE latents with high-level semantic features extracted from pre-trained visual encoders. However, existing approaches rely on a fixed representation space, constructed independently of the generative objective and kept unchanged during training. We argue that the representation space guiding diffusion should itself adapt to the generative task. To this end, we propose Coevolving Representation Diffusion (CoReDi), a framework in which the semantic representation space evolves during training by learning a lightweight linear projection jointly with the diffusion model. While naively optimizing this projection leads to degenerate solutions, we show that stable coevolution can be achieved through a combination of stop-gradient targets, normalization, and targeted regularization that prevents feature collapse. This formulation enables the semantic space to progressively specialize to the needs of image synthesis, improving its complementarity with image latents. We apply CoReDi to both VAE latent diffusion and pixel-space diffusion, demonstrating that adaptive semantic representations improve generative modeling across both settings. Experiments show that CoReDi achieves faster convergence and higher sample quality compared to joint diffusion models operating in fixed representation spaces.

Совместно эволюционирующие репрезентации в диффузионных моделях изображений и признаков

Coevolving Representations in Joint Image-Feature Diffusion

Аннотация

Support