Distillation collaborative de scores pour une synthèse visuelle cohérente

papers.abstract

Les a priori génératifs des modèles de diffusion à grande échelle pour la génération d'images à partir de texte permettent une large gamme de nouvelles applications de génération et d'édition sur des modalités visuelles diverses. Cependant, lors de l'adaptation de ces a priori à des modalités visuelles complexes, souvent représentées par plusieurs images (par exemple, une vidéo), il est difficile d'assurer la cohérence entre un ensemble d'images. Dans cet article, nous relevons ce défi avec une méthode novatrice, la Distillation Collaborative des Scores (CSD). CSD est basée sur la Descente de Gradient Variationnelle de Stein (SVGD). Plus précisément, nous proposons de considérer plusieurs échantillons comme des "particules" dans la mise à jour SVGD et de combiner leurs fonctions de score pour distiller les a priori génératifs sur un ensemble d'images de manière synchrone. Ainsi, CSD facilite l'intégration fluide d'informations à travers des images 2D, conduisant à une synthèse visuelle cohérente entre plusieurs échantillons. Nous démontrons l'efficacité de CSD dans une variété de tâches, englobant l'édition visuelle d'images panoramiques, de vidéos et de scènes 3D. Nos résultats soulignent la compétence de CSD en tant que méthode polyvalente pour améliorer la cohérence inter-échantillons, élargissant ainsi l'applicabilité des modèles de diffusion texte-image.

English

Generative priors of large-scale text-to-image diffusion models enable a wide range of new generation and editing applications on diverse visual modalities. However, when adapting these priors to complex visual modalities, often represented as multiple images (e.g., video), achieving consistency across a set of images is challenging. In this paper, we address this challenge with a novel method, Collaborative Score Distillation (CSD). CSD is based on the Stein Variational Gradient Descent (SVGD). Specifically, we propose to consider multiple samples as "particles" in the SVGD update and combine their score functions to distill generative priors over a set of images synchronously. Thus, CSD facilitates seamless integration of information across 2D images, leading to a consistent visual synthesis across multiple samples. We show the effectiveness of CSD in a variety of tasks, encompassing the visual editing of panorama images, videos, and 3D scenes. Our results underline the competency of CSD as a versatile method for enhancing inter-sample consistency, thereby broadening the applicability of text-to-image diffusion models.

Distillation collaborative de scores pour une synthèse visuelle cohérente

Collaborative Score Distillation for Consistent Visual Synthesis

papers.abstract

Support