DiffuMural: Restaurando Murais de Dunhuang com Difusão Multiescala

Resumo

Modelos de difusão pré-treinados em grande escala têm produzido excelentes resultados no campo de geração de imagens condicionais. No entanto, a restauração de murais antigos, como uma importante tarefa subsequente nesse campo, apresenta desafios significativos para métodos de restauração baseados em modelos de difusão, devido à grande área de defeitos e à escassez de amostras de treinamento. Tarefas de restauração condicional estão mais preocupadas em saber se a parte restaurada atende aos padrões estéticos de restauração de murais em termos de estilo geral e detalhes de costura, e tais métricas para avaliar complementos heurísticos de imagens estão ausentes nas pesquisas atuais. Propomos, portanto, o DiffuMural, um mecanismo combinado de Convergência Multi-escala e Difusão Colaborativa com ControlNet e perda de consistência cíclica para otimizar a correspondência entre as imagens geradas e o controle condicional. O DiffuMural demonstra capacidades excepcionais na restauração de murais, aproveitando dados de treinamento de 23 murais em grande escala de Dunhuang que exibem uma estética visual consistente. O modelo se destaca na restauração de detalhes intrincados, alcançando uma aparência geral coesa e abordando os desafios únicos apresentados por murais incompletos que carecem de fundamentação factual. Nosso framework de avaliação incorpora quatro métricas-chave para avaliar quantitativamente murais incompletos: precisão factual, detalhes texturais, semântica contextual e coerência visual holística. Além disso, integramos avaliações de valor humanístico para garantir que os murais restaurados mantenham seu significado cultural e artístico. Experimentos extensivos validam que nosso método supera as abordagens state-of-the-art (SOTA) tanto em métricas qualitativas quanto quantitativas.

English

Large-scale pre-trained diffusion models have produced excellent results in the field of conditional image generation. However, restoration of ancient murals, as an important downstream task in this field, poses significant challenges to diffusion model-based restoration methods due to its large defective area and scarce training samples. Conditional restoration tasks are more concerned with whether the restored part meets the aesthetic standards of mural restoration in terms of overall style and seam detail, and such metrics for evaluating heuristic image complements are lacking in current research. We therefore propose DiffuMural, a combined Multi-scale convergence and Collaborative Diffusion mechanism with ControlNet and cyclic consistency loss to optimise the matching between the generated images and the conditional control. DiffuMural demonstrates outstanding capabilities in mural restoration, leveraging training data from 23 large-scale Dunhuang murals that exhibit consistent visual aesthetics. The model excels in restoring intricate details, achieving a coherent overall appearance, and addressing the unique challenges posed by incomplete murals lacking factual grounding. Our evaluation framework incorporates four key metrics to quantitatively assess incomplete murals: factual accuracy, textural detail, contextual semantics, and holistic visual coherence. Furthermore, we integrate humanistic value assessments to ensure the restored murals retain their cultural and artistic significance. Extensive experiments validate that our method outperforms state-of-the-art (SOTA) approaches in both qualitative and quantitative metrics.

DiffuMural: Restaurando Murais de Dunhuang com Difusão Multiescala

DiffuMural: Restoring Dunhuang Murals with Multi-scale Diffusion

Resumo

Summary

Support

Support