Koevolvierende Repräsentationen in gemeinsamer Bild-Merkmal-Diffusion

Zusammenfassung

Die gemeinsame Bild-Feature-Generativmodellierung hat sich kürzlich als effektive Strategie zur Verbesserung des Diffusionstrainings erwiesen, indem niedrigdimensionale VAE-Latenzen mit hochrangigen semantischen Features aus vortrainierten visuellen Encodern gekoppelt werden. Bisherige Ansätze beruhen jedoch auf einem festen Repräsentationsraum, der unabhängig vom generativen Ziel konstruiert und während des Trainings unverändert bleibt. Wir vertreten die Ansicht, dass sich der den Diffusionsprozess steuernde Repräsentationsraum selbst an die generative Aufgabe anpassen sollte. Zu diesem Zweck schlagen wir Coevolving Representation Diffusion (CoReDi) vor, ein Framework, in dem sich der semantische Repräsentationsraum während des Trainings durch das gemeinsame Erlernen einer leichtgewichtigen linearen Projektion mit dem Diffusionsmodell weiterentwickelt. Während eine naive Optimierung dieser Projektion zu degenerierten Lösungen führt, zeigen wir, dass eine stabile Koevolution durch eine Kombination aus Stop-Gradient-Zielen, Normalisierung und gezielter Regularisierung erreicht werden kann, die einen Feature-Kollaps verhindert. Diese Formulierung ermöglicht es dem semantischen Raum, sich schrittweise auf die Anforderungen der Bildsynthese zu spezialisieren und seine Komplementarität zu Bildlatenzen zu verbessern. Wir wenden CoReDi sowohl auf VAE-Latenzdiffusion als auch auf Pixelraum-Diffusion an und demonstrieren, dass adaptive semantische Repräsentationen die generative Modellierung in beiden Settings verbessern. Experimente zeigen, dass CoReDi im Vergleich zu gemeinsamen Diffusionsmodellen mit festen Repräsentationsräumen eine schnellere Konvergenz und höhere Probenqualität erreicht.

English

Joint image-feature generative modeling has recently emerged as an effective strategy for improving diffusion training by coupling low-level VAE latents with high-level semantic features extracted from pre-trained visual encoders. However, existing approaches rely on a fixed representation space, constructed independently of the generative objective and kept unchanged during training. We argue that the representation space guiding diffusion should itself adapt to the generative task. To this end, we propose Coevolving Representation Diffusion (CoReDi), a framework in which the semantic representation space evolves during training by learning a lightweight linear projection jointly with the diffusion model. While naively optimizing this projection leads to degenerate solutions, we show that stable coevolution can be achieved through a combination of stop-gradient targets, normalization, and targeted regularization that prevents feature collapse. This formulation enables the semantic space to progressively specialize to the needs of image synthesis, improving its complementarity with image latents. We apply CoReDi to both VAE latent diffusion and pixel-space diffusion, demonstrating that adaptive semantic representations improve generative modeling across both settings. Experiments show that CoReDi achieves faster convergence and higher sample quality compared to joint diffusion models operating in fixed representation spaces.

Koevolvierende Repräsentationen in gemeinsamer Bild-Merkmal-Diffusion

Coevolving Representations in Joint Image-Feature Diffusion

Zusammenfassung

Support