RestoreFormer++: Hacia la Restauración Facial en el Mundo Real a partir de Pares Clave-Valor No Degradados
RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs
August 14, 2023
Autores: Zhouxia Wang, Jiawei Zhang, Tianshui Chen, Wenping Wang, Ping Luo
cs.AI
Resumen
La restauración ciega de rostros tiene como objetivo recuperar imágenes faciales de alta calidad a partir de aquellas con degradaciones desconocidas. Los algoritmos actuales introducen principalmente priores para complementar detalles de alta calidad y han logrado avances impresionantes. Sin embargo, la mayoría de estos algoritmos ignoran la abundante información contextual en el rostro y su interacción con los priores, lo que conduce a un rendimiento subóptimo. Además, prestan menos atención a la brecha entre los escenarios sintéticos y los del mundo real, limitando la robustez y generalización para aplicaciones prácticas. En este trabajo, proponemos RestoreFormer++, que por un lado introduce mecanismos de atención completamente espacial para modelar la información contextual y su interacción con los priores, y por otro lado, explora un modelo de degradación extendido para ayudar a generar imágenes faciales degradadas más realistas y así mitigar la brecha entre lo sintético y el mundo real. En comparación con los algoritmos actuales, RestoreFormer++ ofrece varios beneficios cruciales. Primero, en lugar de utilizar un mecanismo de autoatención multi-cabeza como el transformador visual tradicional, introducimos una atención cruzada multi-cabeza sobre características multi-escala para explorar completamente las interacciones espaciales entre la información corrupta y los priores de alta calidad. De esta manera, facilita que RestoreFormer++ restaure imágenes faciales con mayor realismo y fidelidad. Segundo, en contraste con el diccionario orientado al reconocimiento, aprendemos un diccionario orientado a la reconstrucción como priores, que contiene detalles faciales de alta calidad más diversos y se ajusta mejor al objetivo de restauración. Tercero, introducimos un modelo de degradación extendido que incluye escenarios degradados más realistas para la síntesis de datos de entrenamiento, lo que ayuda a mejorar la robustez y generalización de nuestro modelo RestoreFormer++. Experimentos extensivos demuestran que RestoreFormer++ supera a los algoritmos más avanzados tanto en conjuntos de datos sintéticos como del mundo real.
English
Blind face restoration aims at recovering high-quality face images from those
with unknown degradations. Current algorithms mainly introduce priors to
complement high-quality details and achieve impressive progress. However, most
of these algorithms ignore abundant contextual information in the face and its
interplay with the priors, leading to sub-optimal performance. Moreover, they
pay less attention to the gap between the synthetic and real-world scenarios,
limiting the robustness and generalization to real-world applications. In this
work, we propose RestoreFormer++, which on the one hand introduces
fully-spatial attention mechanisms to model the contextual information and the
interplay with the priors, and on the other hand, explores an extending
degrading model to help generate more realistic degraded face images to
alleviate the synthetic-to-real-world gap. Compared with current algorithms,
RestoreFormer++ has several crucial benefits. First, instead of using a
multi-head self-attention mechanism like the traditional visual transformer, we
introduce multi-head cross-attention over multi-scale features to fully explore
spatial interactions between corrupted information and high-quality priors. In
this way, it can facilitate RestoreFormer++ to restore face images with higher
realness and fidelity. Second, in contrast to the recognition-oriented
dictionary, we learn a reconstruction-oriented dictionary as priors, which
contains more diverse high-quality facial details and better accords with the
restoration target. Third, we introduce an extending degrading model that
contains more realistic degraded scenarios for training data synthesizing, and
thus helps to enhance the robustness and generalization of our RestoreFormer++
model. Extensive experiments show that RestoreFormer++ outperforms
state-of-the-art algorithms on both synthetic and real-world datasets.