RestoreFormer++: Rumando à Restauração de Faces Cegas no Mundo Real a partir de Pares Chave-Valor Não Degradados

Resumo

A restauração cega de faces visa recuperar imagens faciais de alta qualidade a partir daquelas com degradações desconhecidas. Os algoritmos atuais introduzem principalmente prioridades para complementar detalhes de alta qualidade e alcançam progressos impressionantes. No entanto, a maioria desses algoritmos ignora informações contextuais abundantes na face e sua interação com as prioridades, resultando em desempenho subótimo. Além disso, eles dão menos atenção à lacuna entre os cenários sintéticos e os do mundo real, limitando a robustez e a generalização para aplicações do mundo real. Neste trabalho, propomos o RestoreFormer++, que, por um lado, introduz mecanismos de atenção totalmente espacial para modelar as informações contextuais e a interação com as prioridades, e, por outro lado, explora um modelo de degradação estendido para ajudar a gerar imagens faciais degradadas mais realistas, a fim de aliviar a lacuna entre o sintético e o mundo real. Em comparação com os algoritmos atuais, o RestoreFormer++ apresenta vários benefícios cruciais. Primeiro, em vez de usar um mecanismo de autoatenção multi-cabeça como o transformador visual tradicional, introduzimos a atenção cruzada multi-cabeça sobre características multi-escala para explorar completamente as interações espaciais entre informações corrompidas e prioridades de alta qualidade. Dessa forma, ele pode facilitar o RestoreFormer++ a restaurar imagens faciais com maior realismo e fidelidade. Segundo, em contraste com o dicionário orientado para reconhecimento, aprendemos um dicionário orientado para reconstrução como prioridades, que contém detalhes faciais de alta qualidade mais diversos e está mais alinhado com o objetivo de restauração. Terceiro, introduzimos um modelo de degradação estendido que contém cenários degradados mais realistas para a síntese de dados de treinamento, ajudando assim a melhorar a robustez e a generalização do nosso modelo RestoreFormer++. Experimentos extensivos mostram que o RestoreFormer++ supera os algoritmos state-of-the-art tanto em conjuntos de dados sintéticos quanto do mundo real.

English

Blind face restoration aims at recovering high-quality face images from those with unknown degradations. Current algorithms mainly introduce priors to complement high-quality details and achieve impressive progress. However, most of these algorithms ignore abundant contextual information in the face and its interplay with the priors, leading to sub-optimal performance. Moreover, they pay less attention to the gap between the synthetic and real-world scenarios, limiting the robustness and generalization to real-world applications. In this work, we propose RestoreFormer++, which on the one hand introduces fully-spatial attention mechanisms to model the contextual information and the interplay with the priors, and on the other hand, explores an extending degrading model to help generate more realistic degraded face images to alleviate the synthetic-to-real-world gap. Compared with current algorithms, RestoreFormer++ has several crucial benefits. First, instead of using a multi-head self-attention mechanism like the traditional visual transformer, we introduce multi-head cross-attention over multi-scale features to fully explore spatial interactions between corrupted information and high-quality priors. In this way, it can facilitate RestoreFormer++ to restore face images with higher realness and fidelity. Second, in contrast to the recognition-oriented dictionary, we learn a reconstruction-oriented dictionary as priors, which contains more diverse high-quality facial details and better accords with the restoration target. Third, we introduce an extending degrading model that contains more realistic degraded scenarios for training data synthesizing, and thus helps to enhance the robustness and generalization of our RestoreFormer++ model. Extensive experiments show that RestoreFormer++ outperforms state-of-the-art algorithms on both synthetic and real-world datasets.

RestoreFormer++: Rumando à Restauração de Faces Cegas no Mundo Real a partir de Pares Chave-Valor Não Degradados

RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs

Resumo

Support