DiffuMural : Restauration des fresques de Dunhuang grâce à une diffusion multi-échelle
DiffuMural: Restoring Dunhuang Murals with Multi-scale Diffusion
April 13, 2025
Auteurs: Puyu Han, Jiaju Kang, Yuhang Pan, Erting Pan, Zeyu Zhang, Qunchao Jin, Juntao Jiang, Zhichen Liu, Luqi Gong
cs.AI
Résumé
Les modèles de diffusion pré-entraînés à grande échelle ont produit d'excellents résultats dans le domaine de la génération d'images conditionnelles. Cependant, la restauration des fresques anciennes, en tant que tâche en aval importante dans ce domaine, pose des défis majeurs aux méthodes de restauration basées sur les modèles de diffusion en raison de leurs grandes zones défectueuses et du nombre limité d'échantillons d'entraînement. Les tâches de restauration conditionnelle s'intéressent davantage à savoir si la partie restaurée répond aux normes esthétiques de la restauration de fresques en termes de style global et de détails de jointure, et de telles métriques pour évaluer les compléments d'images heuristiques font défaut dans les recherches actuelles. Nous proposons donc DiffuMural, un mécanisme combiné de convergence multi-échelle et de diffusion collaborative avec ControlNet et une perte de cohérence cyclique pour optimiser la correspondance entre les images générées et le contrôle conditionnel. DiffuMural démontre des capacités exceptionnelles dans la restauration de fresques, en s'appuyant sur des données d'entraînement provenant de 23 grandes fresques de Dunhuang qui présentent une esthétique visuelle cohérente. Le modèle excelle dans la restauration de détails complexes, en atteignant une apparence globale cohérente, et en relevant les défis uniques posés par les fresques incomplètes manquant de fondements factuels. Notre cadre d'évaluation intègre quatre métriques clés pour évaluer quantitativement les fresques incomplètes : l'exactitude factuelle, les détails texturaux, la sémantique contextuelle et la cohérence visuelle holistique. De plus, nous intégrons des évaluations de valeur humaniste pour garantir que les fresques restaurées conservent leur signification culturelle et artistique. Des expériences approfondies valident que notre méthode surpasse les approches de pointe (SOTA) à la fois en termes de métriques qualitatives et quantitatives.
English
Large-scale pre-trained diffusion models have produced excellent results in
the field of conditional image generation. However, restoration of ancient
murals, as an important downstream task in this field, poses significant
challenges to diffusion model-based restoration methods due to its large
defective area and scarce training samples. Conditional restoration tasks are
more concerned with whether the restored part meets the aesthetic standards of
mural restoration in terms of overall style and seam detail, and such metrics
for evaluating heuristic image complements are lacking in current research. We
therefore propose DiffuMural, a combined Multi-scale convergence and
Collaborative Diffusion mechanism with ControlNet and cyclic consistency loss
to optimise the matching between the generated images and the conditional
control. DiffuMural demonstrates outstanding capabilities in mural restoration,
leveraging training data from 23 large-scale Dunhuang murals that exhibit
consistent visual aesthetics. The model excels in restoring intricate details,
achieving a coherent overall appearance, and addressing the unique challenges
posed by incomplete murals lacking factual grounding. Our evaluation framework
incorporates four key metrics to quantitatively assess incomplete murals:
factual accuracy, textural detail, contextual semantics, and holistic visual
coherence. Furthermore, we integrate humanistic value assessments to ensure the
restored murals retain their cultural and artistic significance. Extensive
experiments validate that our method outperforms state-of-the-art (SOTA)
approaches in both qualitative and quantitative metrics.Summary
AI-Generated Summary