RestoreFormer++: Auf dem Weg zur realitätsnahen blinden Gesichtsrestauration aus nicht-degradierten Schlüssel-Wert-Paaren
RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs
August 14, 2023
Autoren: Zhouxia Wang, Jiawei Zhang, Tianshui Chen, Wenping Wang, Ping Luo
cs.AI
Zusammenfassung
Blind Face Restoration zielt darauf ab, hochwertige Gesichtsbilder aus solchen mit unbekannten Verschlechterungen wiederherzustellen. Aktuelle Algorithmen führen hauptsächlich Prioritäten ein, um hochwertige Details zu ergänzen und beeindruckende Fortschritte zu erzielen. Die meisten dieser Algorithmen ignorieren jedoch die reichhaltigen kontextuellen Informationen im Gesicht und deren Wechselwirkung mit den Prioritäten, was zu suboptimalen Ergebnissen führt. Darüber hinaus schenken sie der Lücke zwischen synthetischen und realen Szenarien weniger Aufmerksamkeit, was die Robustheit und Generalisierung für reale Anwendungen einschränkt. In dieser Arbeit schlagen wir RestoreFormer++ vor, das einerseits vollständig räumliche Aufmerksamkeitsmechanismen einführt, um die kontextuellen Informationen und deren Wechselwirkung mit den Prioritäten zu modellieren, und andererseits ein erweitertes Verschlechterungsmodell erforscht, um realistischere verschlechterte Gesichtsbilder zu generieren und so die Lücke zwischen synthetischen und realen Szenarien zu verringern. Im Vergleich zu aktuellen Algorithmen bietet RestoreFormer++ mehrere entscheidende Vorteile. Erstens führen wir anstelle eines Multi-Head-Selbstaufmerksamkeitsmechanismus wie beim traditionellen visuellen Transformer eine Multi-Head-Kreuzaufmerksamkeit über mehrstufige Merkmale ein, um die räumlichen Interaktionen zwischen beschädigten Informationen und hochwertigen Prioritäten vollständig zu erforschen. Auf diese Weise kann RestoreFormer++ Gesichtsbilder mit höherer Realitätsnähe und Treue wiederherstellen. Zweitens lernen wir im Gegensatz zu einem erkennungsorientierten Wörterbuch ein rekonstruktionsorientiertes Wörterbuch als Prioritäten, das vielfältigere hochwertige Gesichtsdetails enthält und besser mit dem Wiederherstellungsziel übereinstimmt. Drittens führen wir ein erweitertes Verschlechterungsmodell ein, das realistischere verschlechterte Szenarien für die Synthese von Trainingsdaten enthält und somit dazu beiträgt, die Robustheit und Generalisierung unseres RestoreFormer++-Modells zu verbessern. Umfangreiche Experimente zeigen, dass RestoreFormer++ sowohl auf synthetischen als auch auf realen Datensätzen state-of-the-art Algorithmen übertrifft.
English
Blind face restoration aims at recovering high-quality face images from those
with unknown degradations. Current algorithms mainly introduce priors to
complement high-quality details and achieve impressive progress. However, most
of these algorithms ignore abundant contextual information in the face and its
interplay with the priors, leading to sub-optimal performance. Moreover, they
pay less attention to the gap between the synthetic and real-world scenarios,
limiting the robustness and generalization to real-world applications. In this
work, we propose RestoreFormer++, which on the one hand introduces
fully-spatial attention mechanisms to model the contextual information and the
interplay with the priors, and on the other hand, explores an extending
degrading model to help generate more realistic degraded face images to
alleviate the synthetic-to-real-world gap. Compared with current algorithms,
RestoreFormer++ has several crucial benefits. First, instead of using a
multi-head self-attention mechanism like the traditional visual transformer, we
introduce multi-head cross-attention over multi-scale features to fully explore
spatial interactions between corrupted information and high-quality priors. In
this way, it can facilitate RestoreFormer++ to restore face images with higher
realness and fidelity. Second, in contrast to the recognition-oriented
dictionary, we learn a reconstruction-oriented dictionary as priors, which
contains more diverse high-quality facial details and better accords with the
restoration target. Third, we introduce an extending degrading model that
contains more realistic degraded scenarios for training data synthesizing, and
thus helps to enhance the robustness and generalization of our RestoreFormer++
model. Extensive experiments show that RestoreFormer++ outperforms
state-of-the-art algorithms on both synthetic and real-world datasets.