DiffuMural:マルチスケール拡散による敦煌壁画の修復
DiffuMural: Restoring Dunhuang Murals with Multi-scale Diffusion
April 13, 2025
著者: Puyu Han, Jiaju Kang, Yuhang Pan, Erting Pan, Zeyu Zhang, Qunchao Jin, Juntao Jiang, Zhichen Liu, Luqi Gong
cs.AI
要旨
大規模な事前学習済み拡散モデルは、条件付き画像生成の分野で優れた結果を生み出してきました。しかし、古代壁画の修復はこの分野における重要な下流タスクであり、欠損領域の広さと学習サンプルの希少さから、拡散モデルベースの修復手法に大きな課題を突きつけています。条件付き修復タスクでは、修復された部分が全体のスタイルや継ぎ目のディテールにおいて壁画修復の美的基準を満たしているかどうかがより重要視されますが、現在の研究ではこのようなヒューリスティックな画像補完を評価するための指標が不足しています。そこで我々は、ControlNetと循環一貫性損失を組み合わせたマルチスケール収束および協調拡散メカニズムを提案し、生成画像と条件制御のマッチングを最適化するDiffuMuralを開発しました。DiffuMuralは、一貫した視覚的美学を有する23点の大規模敦煌壁画の学習データを活用し、壁画修復において卓越した能力を発揮します。本モデルは、複雑なディテールの修復、全体の一貫性の実現、事実的根拠を欠く不完全な壁画が抱える特有の課題への対応において優れています。我々の評価フレームワークは、不完全な壁画を定量的に評価するための4つの主要な指標(事実的精度、テクスチャのディテール、文脈的意味論、全体的な視覚的一貫性)を統合しています。さらに、修復された壁画が文化的・芸術的意義を保持することを保証するため、人文的価値評価も組み込んでいます。大規模な実験により、我々の手法が定性的・定量的な指標の両面において最先端(SOTA)のアプローチを凌駕することが検証されました。
English
Large-scale pre-trained diffusion models have produced excellent results in
the field of conditional image generation. However, restoration of ancient
murals, as an important downstream task in this field, poses significant
challenges to diffusion model-based restoration methods due to its large
defective area and scarce training samples. Conditional restoration tasks are
more concerned with whether the restored part meets the aesthetic standards of
mural restoration in terms of overall style and seam detail, and such metrics
for evaluating heuristic image complements are lacking in current research. We
therefore propose DiffuMural, a combined Multi-scale convergence and
Collaborative Diffusion mechanism with ControlNet and cyclic consistency loss
to optimise the matching between the generated images and the conditional
control. DiffuMural demonstrates outstanding capabilities in mural restoration,
leveraging training data from 23 large-scale Dunhuang murals that exhibit
consistent visual aesthetics. The model excels in restoring intricate details,
achieving a coherent overall appearance, and addressing the unique challenges
posed by incomplete murals lacking factual grounding. Our evaluation framework
incorporates four key metrics to quantitatively assess incomplete murals:
factual accuracy, textural detail, contextual semantics, and holistic visual
coherence. Furthermore, we integrate humanistic value assessments to ensure the
restored murals retain their cultural and artistic significance. Extensive
experiments validate that our method outperforms state-of-the-art (SOTA)
approaches in both qualitative and quantitative metrics.Summary
AI-Generated Summary