RestoreFormer++: В направлении восстановления лиц в реальных условиях на основе неискаженных пар ключ-значение
RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs
August 14, 2023
Авторы: Zhouxia Wang, Jiawei Zhang, Tianshui Chen, Wenping Wang, Ping Luo
cs.AI
Аннотация
Восстановление лиц с неизвестными искажениями (Blind Face Restoration) направлено на восстановление высококачественных изображений лиц из изображений с неизвестными деградациями. Современные алгоритмы в основном используют априорные данные для дополнения деталей высокого качества и демонстрируют впечатляющие результаты. Однако большинство этих алгоритмов игнорируют богатую контекстуальную информацию в изображении лица и её взаимодействие с априорными данными, что приводит к неоптимальной производительности. Кроме того, они уделяют меньше внимания разрыву между синтетическими и реальными сценариями, что ограничивает их устойчивость и обобщаемость в реальных приложениях. В данной работе мы предлагаем RestoreFormer++, который, с одной стороны, вводит полностью пространственные механизмы внимания для моделирования контекстуальной информации и её взаимодействия с априорными данными, а с другой стороны, исследует расширенную модель деградации для генерации более реалистичных искажённых изображений лиц, что помогает уменьшить разрыв между синтетическими и реальными данными. По сравнению с современными алгоритмами, RestoreFormer++ обладает несколькими ключевыми преимуществами. Во-первых, вместо использования механизма многоголового самовнимания, как в традиционном визуальном трансформере, мы вводим многоголовое кросс-внимание на многоуровневых признаках, чтобы полностью исследовать пространственные взаимодействия между искажённой информацией и априорными данными высокого качества. Это позволяет RestoreFormer++ восстанавливать изображения лиц с большей реалистичностью и точностью. Во-вторых, в отличие от словаря, ориентированного на распознавание, мы обучаем словарь, ориентированный на восстановление, который содержит более разнообразные детали высокого качества и лучше соответствует цели восстановления. В-третьих, мы вводим расширенную модель деградации, которая включает более реалистичные сценарии искажений для синтеза обучающих данных, что помогает повысить устойчивость и обобщаемость нашей модели RestoreFormer++. Многочисленные эксперименты показывают, что RestoreFormer++ превосходит современные алгоритмы как на синтетических, так и на реальных наборах данных.
English
Blind face restoration aims at recovering high-quality face images from those
with unknown degradations. Current algorithms mainly introduce priors to
complement high-quality details and achieve impressive progress. However, most
of these algorithms ignore abundant contextual information in the face and its
interplay with the priors, leading to sub-optimal performance. Moreover, they
pay less attention to the gap between the synthetic and real-world scenarios,
limiting the robustness and generalization to real-world applications. In this
work, we propose RestoreFormer++, which on the one hand introduces
fully-spatial attention mechanisms to model the contextual information and the
interplay with the priors, and on the other hand, explores an extending
degrading model to help generate more realistic degraded face images to
alleviate the synthetic-to-real-world gap. Compared with current algorithms,
RestoreFormer++ has several crucial benefits. First, instead of using a
multi-head self-attention mechanism like the traditional visual transformer, we
introduce multi-head cross-attention over multi-scale features to fully explore
spatial interactions between corrupted information and high-quality priors. In
this way, it can facilitate RestoreFormer++ to restore face images with higher
realness and fidelity. Second, in contrast to the recognition-oriented
dictionary, we learn a reconstruction-oriented dictionary as priors, which
contains more diverse high-quality facial details and better accords with the
restoration target. Third, we introduce an extending degrading model that
contains more realistic degraded scenarios for training data synthesizing, and
thus helps to enhance the robustness and generalization of our RestoreFormer++
model. Extensive experiments show that RestoreFormer++ outperforms
state-of-the-art algorithms on both synthetic and real-world datasets.