DiffuMural: Восстановление Дуньхуанских фресок с использованием многоуровневой диффузии
DiffuMural: Restoring Dunhuang Murals with Multi-scale Diffusion
April 13, 2025
Авторы: Puyu Han, Jiaju Kang, Yuhang Pan, Erting Pan, Zeyu Zhang, Qunchao Jin, Juntao Jiang, Zhichen Liu, Luqi Gong
cs.AI
Аннотация
Крупномасштабные предобученные диффузионные модели продемонстрировали выдающиеся результаты в области условной генерации изображений. Однако восстановление древних фресок, как важная задача в этой области, представляет значительные трудности для методов восстановления на основе диффузионных моделей из-за больших поврежденных областей и ограниченного количества обучающих данных. Условные задачи восстановления больше сосредоточены на том, соответствует ли восстановленная часть эстетическим стандартам реставрации фресок в плане общего стиля и деталей стыков, и в текущих исследованиях отсутствуют метрики для оценки эвристического дополнения изображений. Поэтому мы предлагаем DiffuMural — комбинированный механизм многоуровневой сходимости и совместной диффузии с использованием ControlNet и циклической потери согласованности для оптимизации соответствия между сгенерированными изображениями и условным управлением. DiffuMural демонстрирует выдающиеся возможности в восстановлении фресок, используя обучающие данные из 23 крупномасштабных фресок Дуньхуана, которые обладают единой визуальной эстетикой. Модель преуспевает в восстановлении сложных деталей, достижении целостного внешнего вида и решении уникальных задач, связанных с неполными фресками, лишенными фактической основы. Наша система оценки включает четыре ключевые метрики для количественного анализа неполных фресок: фактическая точность, текстурные детали, контекстная семантика и целостная визуальная согласованность. Кроме того, мы интегрируем оценку гуманистической ценности, чтобы гарантировать сохранение культурного и художественного значения восстановленных фресок. Многочисленные эксперименты подтверждают, что наш метод превосходит современные подходы (SOTA) как по качественным, так и по количественным метрикам.
English
Large-scale pre-trained diffusion models have produced excellent results in
the field of conditional image generation. However, restoration of ancient
murals, as an important downstream task in this field, poses significant
challenges to diffusion model-based restoration methods due to its large
defective area and scarce training samples. Conditional restoration tasks are
more concerned with whether the restored part meets the aesthetic standards of
mural restoration in terms of overall style and seam detail, and such metrics
for evaluating heuristic image complements are lacking in current research. We
therefore propose DiffuMural, a combined Multi-scale convergence and
Collaborative Diffusion mechanism with ControlNet and cyclic consistency loss
to optimise the matching between the generated images and the conditional
control. DiffuMural demonstrates outstanding capabilities in mural restoration,
leveraging training data from 23 large-scale Dunhuang murals that exhibit
consistent visual aesthetics. The model excels in restoring intricate details,
achieving a coherent overall appearance, and addressing the unique challenges
posed by incomplete murals lacking factual grounding. Our evaluation framework
incorporates four key metrics to quantitatively assess incomplete murals:
factual accuracy, textural detail, contextual semantics, and holistic visual
coherence. Furthermore, we integrate humanistic value assessments to ensure the
restored murals retain their cultural and artistic significance. Extensive
experiments validate that our method outperforms state-of-the-art (SOTA)
approaches in both qualitative and quantitative metrics.Summary
AI-Generated Summary