DiffuMural: Restaurando Murais de Dunhuang com Difusão Multiescala
DiffuMural: Restoring Dunhuang Murals with Multi-scale Diffusion
April 13, 2025
Autores: Puyu Han, Jiaju Kang, Yuhang Pan, Erting Pan, Zeyu Zhang, Qunchao Jin, Juntao Jiang, Zhichen Liu, Luqi Gong
cs.AI
Resumo
Modelos de difusão pré-treinados em grande escala têm produzido excelentes resultados no campo de geração de imagens condicionais. No entanto, a restauração de murais antigos, como uma importante tarefa subsequente nesse campo, apresenta desafios significativos para métodos de restauração baseados em modelos de difusão, devido à grande área de defeitos e à escassez de amostras de treinamento. Tarefas de restauração condicional estão mais preocupadas em saber se a parte restaurada atende aos padrões estéticos de restauração de murais em termos de estilo geral e detalhes de costura, e tais métricas para avaliar complementos heurísticos de imagens estão ausentes nas pesquisas atuais. Propomos, portanto, o DiffuMural, um mecanismo combinado de Convergência Multi-escala e Difusão Colaborativa com ControlNet e perda de consistência cíclica para otimizar a correspondência entre as imagens geradas e o controle condicional. O DiffuMural demonstra capacidades excepcionais na restauração de murais, aproveitando dados de treinamento de 23 murais em grande escala de Dunhuang que exibem uma estética visual consistente. O modelo se destaca na restauração de detalhes intrincados, alcançando uma aparência geral coesa e abordando os desafios únicos apresentados por murais incompletos que carecem de fundamentação factual. Nosso framework de avaliação incorpora quatro métricas-chave para avaliar quantitativamente murais incompletos: precisão factual, detalhes texturais, semântica contextual e coerência visual holística. Além disso, integramos avaliações de valor humanístico para garantir que os murais restaurados mantenham seu significado cultural e artístico. Experimentos extensivos validam que nosso método supera as abordagens state-of-the-art (SOTA) tanto em métricas qualitativas quanto quantitativas.
English
Large-scale pre-trained diffusion models have produced excellent results in
the field of conditional image generation. However, restoration of ancient
murals, as an important downstream task in this field, poses significant
challenges to diffusion model-based restoration methods due to its large
defective area and scarce training samples. Conditional restoration tasks are
more concerned with whether the restored part meets the aesthetic standards of
mural restoration in terms of overall style and seam detail, and such metrics
for evaluating heuristic image complements are lacking in current research. We
therefore propose DiffuMural, a combined Multi-scale convergence and
Collaborative Diffusion mechanism with ControlNet and cyclic consistency loss
to optimise the matching between the generated images and the conditional
control. DiffuMural demonstrates outstanding capabilities in mural restoration,
leveraging training data from 23 large-scale Dunhuang murals that exhibit
consistent visual aesthetics. The model excels in restoring intricate details,
achieving a coherent overall appearance, and addressing the unique challenges
posed by incomplete murals lacking factual grounding. Our evaluation framework
incorporates four key metrics to quantitatively assess incomplete murals:
factual accuracy, textural detail, contextual semantics, and holistic visual
coherence. Furthermore, we integrate humanistic value assessments to ensure the
restored murals retain their cultural and artistic significance. Extensive
experiments validate that our method outperforms state-of-the-art (SOTA)
approaches in both qualitative and quantitative metrics.Summary
AI-Generated Summary