PixelHacker: Восстановление изображений с сохранением структурной и семантической согласованностиPixelHacker: Image Inpainting with Structural and Semantic Consistency
Восстановление изображений является фундаментальной областью исследований, находящейся на стыке редактирования и генерации изображений. Современные передовые методы исследуют новые механизмы внимания, облегченные архитектуры и контекстно-зависимое моделирование, демонстрируя впечатляющие результаты. Однако они часто сталкиваются с трудностями при работе со сложной структурой (например, текстурой, формой, пространственными отношениями) и семантикой (например, цветовой согласованностью, восстановлением объектов и логической корректностью), что приводит к артефактам и некорректной генерации. Для решения этой проблемы мы разработали простую, но эффективную парадигму восстановления, называемую руководством по латентным категориям, и предложили модель на основе диффузии под названием PixelHacker. В частности, мы сначала создали большой набор данных, содержащий 14 миллионов пар изображение-маска, аннотировав передний и задний план (потенциально 116 и 21 категория соответственно). Затем мы отдельно кодируем представления потенциального переднего и заднего плана с помощью двух встраиваний фиксированного размера и периодически внедряем эти характеристики в процесс удаления шума через линейное внимание. Наконец, предварительно обучая на нашем наборе данных и дорабатывая на открытых эталонных тестах, мы получаем PixelHacker. Многочисленные эксперименты показывают, что PixelHacker значительно превосходит современные методы на широком спектре наборов данных (Places2, CelebA-HQ и FFHQ) и демонстрирует замечательную согласованность как в структуре, так и в семантике. Страница проекта доступна по адресу https://hustvl.github.io/PixelHacker.