공동 이미지-특징 확산에서의 공진화 표현
Coevolving Representations in Joint Image-Feature Diffusion
April 19, 2026
저자: Theodoros Kouzelis, Spyros Gidaris, Nikos Komodakis
cs.AI
초록
이미지-특징 결합 생성 모델링은 최근 저수준 VAE 잠재 변수와 사전 학습된 시각 인코더에서 추출한 고수준 의미론적 특징을 결합하여 확산 모델 학습을 개선하는 효과적인 전략으로 부상했습니다. 그러나 기존 접근법은 생성 목표와 독립적으로 구축되고 학습 중 고정된 표현 공간에 의존합니다. 우리는 확산 모델을 안내하는 표현 공간 자체가 생성 과제에 적응해야 한다고 주장합니다. 이를 위해 우리는 의미론적 표현 공간이 확산 모델과 함께 경량 선형 투영을 학습함으로써 학습 중 진화하는 Coevolving Representation Diffusion(CoReDi) 프레임워크를 제안합니다. 이 투영을 단순히 최적화하면 퇴화된 해법이 도출되지만, 정지 기울기 목표, 정규화, 그리고 특징 붕괴를 방지하는 표적 정규화를 결합하여 안정적인 공진화가 가능함을 보여줍니다. 이 공식화를 통해 의미론적 공간은 이미지 합성의 필요에 점진적으로 특화되어 이미지 잠재 변수와의 상호 보완성을 향상시킵니다. 우리는 CoReDi를 VAE 잠재 확산과 픽셀 공간 확산 모두에 적용하여 적응형 의미론적 표현이 두 설정 모두에서 생성 모델링을 개선함을 입증합니다. 실험 결과, CoReDi는 고정된 표현 공간에서 작동하는 결합 확산 모델 대비 더 빠른 수렴 속도와更高的 샘플 품질을 달성합니다.
English
Joint image-feature generative modeling has recently emerged as an effective strategy for improving diffusion training by coupling low-level VAE latents with high-level semantic features extracted from pre-trained visual encoders. However, existing approaches rely on a fixed representation space, constructed independently of the generative objective and kept unchanged during training. We argue that the representation space guiding diffusion should itself adapt to the generative task. To this end, we propose Coevolving Representation Diffusion (CoReDi), a framework in which the semantic representation space evolves during training by learning a lightweight linear projection jointly with the diffusion model. While naively optimizing this projection leads to degenerate solutions, we show that stable coevolution can be achieved through a combination of stop-gradient targets, normalization, and targeted regularization that prevents feature collapse. This formulation enables the semantic space to progressively specialize to the needs of image synthesis, improving its complementarity with image latents. We apply CoReDi to both VAE latent diffusion and pixel-space diffusion, demonstrating that adaptive semantic representations improve generative modeling across both settings. Experiments show that CoReDi achieves faster convergence and higher sample quality compared to joint diffusion models operating in fixed representation spaces.