Distillation collaborative de scores pour une synthèse visuelle cohérente
Collaborative Score Distillation for Consistent Visual Synthesis
July 4, 2023
Auteurs: Subin Kim, Kyungmin Lee, June Suk Choi, Jongheon Jeong, Kihyuk Sohn, Jinwoo Shin
cs.AI
Résumé
Les a priori génératifs des modèles de diffusion à grande échelle pour la génération d'images à partir de texte permettent une large gamme de nouvelles applications de génération et d'édition sur des modalités visuelles diverses. Cependant, lors de l'adaptation de ces a priori à des modalités visuelles complexes, souvent représentées par plusieurs images (par exemple, une vidéo), il est difficile d'assurer la cohérence entre un ensemble d'images. Dans cet article, nous relevons ce défi avec une méthode novatrice, la Distillation Collaborative des Scores (CSD). CSD est basée sur la Descente de Gradient Variationnelle de Stein (SVGD). Plus précisément, nous proposons de considérer plusieurs échantillons comme des "particules" dans la mise à jour SVGD et de combiner leurs fonctions de score pour distiller les a priori génératifs sur un ensemble d'images de manière synchrone. Ainsi, CSD facilite l'intégration fluide d'informations à travers des images 2D, conduisant à une synthèse visuelle cohérente entre plusieurs échantillons. Nous démontrons l'efficacité de CSD dans une variété de tâches, englobant l'édition visuelle d'images panoramiques, de vidéos et de scènes 3D. Nos résultats soulignent la compétence de CSD en tant que méthode polyvalente pour améliorer la cohérence inter-échantillons, élargissant ainsi l'applicabilité des modèles de diffusion texte-image.
English
Generative priors of large-scale text-to-image diffusion models enable a wide
range of new generation and editing applications on diverse visual modalities.
However, when adapting these priors to complex visual modalities, often
represented as multiple images (e.g., video), achieving consistency across a
set of images is challenging. In this paper, we address this challenge with a
novel method, Collaborative Score Distillation (CSD). CSD is based on the Stein
Variational Gradient Descent (SVGD). Specifically, we propose to consider
multiple samples as "particles" in the SVGD update and combine their score
functions to distill generative priors over a set of images synchronously.
Thus, CSD facilitates seamless integration of information across 2D images,
leading to a consistent visual synthesis across multiple samples. We show the
effectiveness of CSD in a variety of tasks, encompassing the visual editing of
panorama images, videos, and 3D scenes. Our results underline the competency of
CSD as a versatile method for enhancing inter-sample consistency, thereby
broadening the applicability of text-to-image diffusion models.