DiffuMural : Restauration des fresques de Dunhuang grâce à une diffusion multi-échelle

papers.abstract

Les modèles de diffusion pré-entraînés à grande échelle ont produit d'excellents résultats dans le domaine de la génération d'images conditionnelles. Cependant, la restauration des fresques anciennes, en tant que tâche en aval importante dans ce domaine, pose des défis majeurs aux méthodes de restauration basées sur les modèles de diffusion en raison de leurs grandes zones défectueuses et du nombre limité d'échantillons d'entraînement. Les tâches de restauration conditionnelle s'intéressent davantage à savoir si la partie restaurée répond aux normes esthétiques de la restauration de fresques en termes de style global et de détails de jointure, et de telles métriques pour évaluer les compléments d'images heuristiques font défaut dans les recherches actuelles. Nous proposons donc DiffuMural, un mécanisme combiné de convergence multi-échelle et de diffusion collaborative avec ControlNet et une perte de cohérence cyclique pour optimiser la correspondance entre les images générées et le contrôle conditionnel. DiffuMural démontre des capacités exceptionnelles dans la restauration de fresques, en s'appuyant sur des données d'entraînement provenant de 23 grandes fresques de Dunhuang qui présentent une esthétique visuelle cohérente. Le modèle excelle dans la restauration de détails complexes, en atteignant une apparence globale cohérente, et en relevant les défis uniques posés par les fresques incomplètes manquant de fondements factuels. Notre cadre d'évaluation intègre quatre métriques clés pour évaluer quantitativement les fresques incomplètes : l'exactitude factuelle, les détails texturaux, la sémantique contextuelle et la cohérence visuelle holistique. De plus, nous intégrons des évaluations de valeur humaniste pour garantir que les fresques restaurées conservent leur signification culturelle et artistique. Des expériences approfondies valident que notre méthode surpasse les approches de pointe (SOTA) à la fois en termes de métriques qualitatives et quantitatives.

English

Large-scale pre-trained diffusion models have produced excellent results in the field of conditional image generation. However, restoration of ancient murals, as an important downstream task in this field, poses significant challenges to diffusion model-based restoration methods due to its large defective area and scarce training samples. Conditional restoration tasks are more concerned with whether the restored part meets the aesthetic standards of mural restoration in terms of overall style and seam detail, and such metrics for evaluating heuristic image complements are lacking in current research. We therefore propose DiffuMural, a combined Multi-scale convergence and Collaborative Diffusion mechanism with ControlNet and cyclic consistency loss to optimise the matching between the generated images and the conditional control. DiffuMural demonstrates outstanding capabilities in mural restoration, leveraging training data from 23 large-scale Dunhuang murals that exhibit consistent visual aesthetics. The model excels in restoring intricate details, achieving a coherent overall appearance, and addressing the unique challenges posed by incomplete murals lacking factual grounding. Our evaluation framework incorporates four key metrics to quantitatively assess incomplete murals: factual accuracy, textural detail, contextual semantics, and holistic visual coherence. Furthermore, we integrate humanistic value assessments to ensure the restored murals retain their cultural and artistic significance. Extensive experiments validate that our method outperforms state-of-the-art (SOTA) approaches in both qualitative and quantitative metrics.

DiffuMural : Restauration des fresques de Dunhuang grâce à une diffusion multi-échelle

DiffuMural: Restoring Dunhuang Murals with Multi-scale Diffusion

papers.abstract

Support