Distillazione Collaborativa del Punteggio per la Sintesi Visiva Coerente

Abstract

I prior generativi dei modelli di diffusione testo-immagine su larga scala abilitano una vasta gamma di nuove applicazioni di generazione e modifica su diverse modalità visive. Tuttavia, quando si adattano questi prior a modalità visive complesse, spesso rappresentate come immagini multiple (ad esempio, video), ottenere coerenza tra un insieme di immagini risulta impegnativo. In questo articolo, affrontiamo questa sfida con un metodo innovativo, il Collaborative Score Distillation (CSD). CSD si basa sullo Stein Variational Gradient Descent (SVGD). Nello specifico, proponiamo di considerare più campioni come "particelle" nell'aggiornamento SVGD e di combinare le loro funzioni di punteggio per distillare i prior generativi su un insieme di immagini in modo sincrono. Pertanto, CSD facilita l'integrazione senza soluzione di continuità delle informazioni tra immagini 2D, portando a una sintesi visiva coerente tra più campioni. Dimostriamo l'efficacia di CSD in una varietà di compiti, che includono la modifica visiva di immagini panoramiche, video e scene 3D. I nostri risultati sottolineano la competenza di CSD come metodo versatile per migliorare la coerenza inter-campione, ampliando così l'applicabilità dei modelli di diffusione testo-immagine.

English

Generative priors of large-scale text-to-image diffusion models enable a wide range of new generation and editing applications on diverse visual modalities. However, when adapting these priors to complex visual modalities, often represented as multiple images (e.g., video), achieving consistency across a set of images is challenging. In this paper, we address this challenge with a novel method, Collaborative Score Distillation (CSD). CSD is based on the Stein Variational Gradient Descent (SVGD). Specifically, we propose to consider multiple samples as "particles" in the SVGD update and combine their score functions to distill generative priors over a set of images synchronously. Thus, CSD facilitates seamless integration of information across 2D images, leading to a consistent visual synthesis across multiple samples. We show the effectiveness of CSD in a variety of tasks, encompassing the visual editing of panorama images, videos, and 3D scenes. Our results underline the competency of CSD as a versatile method for enhancing inter-sample consistency, thereby broadening the applicability of text-to-image diffusion models.

Distillazione Collaborativa del Punteggio per la Sintesi Visiva Coerente

Collaborative Score Distillation for Consistent Visual Synthesis

Abstract

Support