RestoreFormer++: Hacia la Restauración Facial en el Mundo Real a partir de Pares Clave-Valor No Degradados

Resumen

La restauración ciega de rostros tiene como objetivo recuperar imágenes faciales de alta calidad a partir de aquellas con degradaciones desconocidas. Los algoritmos actuales introducen principalmente priores para complementar detalles de alta calidad y han logrado avances impresionantes. Sin embargo, la mayoría de estos algoritmos ignoran la abundante información contextual en el rostro y su interacción con los priores, lo que conduce a un rendimiento subóptimo. Además, prestan menos atención a la brecha entre los escenarios sintéticos y los del mundo real, limitando la robustez y generalización para aplicaciones prácticas. En este trabajo, proponemos RestoreFormer++, que por un lado introduce mecanismos de atención completamente espacial para modelar la información contextual y su interacción con los priores, y por otro lado, explora un modelo de degradación extendido para ayudar a generar imágenes faciales degradadas más realistas y así mitigar la brecha entre lo sintético y el mundo real. En comparación con los algoritmos actuales, RestoreFormer++ ofrece varios beneficios cruciales. Primero, en lugar de utilizar un mecanismo de autoatención multi-cabeza como el transformador visual tradicional, introducimos una atención cruzada multi-cabeza sobre características multi-escala para explorar completamente las interacciones espaciales entre la información corrupta y los priores de alta calidad. De esta manera, facilita que RestoreFormer++ restaure imágenes faciales con mayor realismo y fidelidad. Segundo, en contraste con el diccionario orientado al reconocimiento, aprendemos un diccionario orientado a la reconstrucción como priores, que contiene detalles faciales de alta calidad más diversos y se ajusta mejor al objetivo de restauración. Tercero, introducimos un modelo de degradación extendido que incluye escenarios degradados más realistas para la síntesis de datos de entrenamiento, lo que ayuda a mejorar la robustez y generalización de nuestro modelo RestoreFormer++. Experimentos extensivos demuestran que RestoreFormer++ supera a los algoritmos más avanzados tanto en conjuntos de datos sintéticos como del mundo real.

English

Blind face restoration aims at recovering high-quality face images from those with unknown degradations. Current algorithms mainly introduce priors to complement high-quality details and achieve impressive progress. However, most of these algorithms ignore abundant contextual information in the face and its interplay with the priors, leading to sub-optimal performance. Moreover, they pay less attention to the gap between the synthetic and real-world scenarios, limiting the robustness and generalization to real-world applications. In this work, we propose RestoreFormer++, which on the one hand introduces fully-spatial attention mechanisms to model the contextual information and the interplay with the priors, and on the other hand, explores an extending degrading model to help generate more realistic degraded face images to alleviate the synthetic-to-real-world gap. Compared with current algorithms, RestoreFormer++ has several crucial benefits. First, instead of using a multi-head self-attention mechanism like the traditional visual transformer, we introduce multi-head cross-attention over multi-scale features to fully explore spatial interactions between corrupted information and high-quality priors. In this way, it can facilitate RestoreFormer++ to restore face images with higher realness and fidelity. Second, in contrast to the recognition-oriented dictionary, we learn a reconstruction-oriented dictionary as priors, which contains more diverse high-quality facial details and better accords with the restoration target. Third, we introduce an extending degrading model that contains more realistic degraded scenarios for training data synthesizing, and thus helps to enhance the robustness and generalization of our RestoreFormer++ model. Extensive experiments show that RestoreFormer++ outperforms state-of-the-art algorithms on both synthetic and real-world datasets.

RestoreFormer++: Hacia la Restauración Facial en el Mundo Real a partir de Pares Clave-Valor No Degradados

RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs

Resumen

Support