PixelHacker: Восстановление изображений с сохранением структурной и семантической согласованности
PixelHacker: Image Inpainting with Structural and Semantic Consistency
April 29, 2025
Авторы: Ziyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang
cs.AI
Аннотация
Восстановление изображений является фундаментальной областью исследований, находящейся на стыке редактирования и генерации изображений. Современные передовые методы исследуют новые механизмы внимания, облегченные архитектуры и контекстно-зависимое моделирование, демонстрируя впечатляющие результаты. Однако они часто сталкиваются с трудностями при работе со сложной структурой (например, текстурой, формой, пространственными отношениями) и семантикой (например, цветовой согласованностью, восстановлением объектов и логической корректностью), что приводит к артефактам и некорректной генерации. Для решения этой проблемы мы разработали простую, но эффективную парадигму восстановления, называемую руководством по латентным категориям, и предложили модель на основе диффузии под названием PixelHacker. В частности, мы сначала создали большой набор данных, содержащий 14 миллионов пар изображение-маска, аннотировав передний и задний план (потенциально 116 и 21 категория соответственно). Затем мы отдельно кодируем представления потенциального переднего и заднего плана с помощью двух встраиваний фиксированного размера и периодически внедряем эти характеристики в процесс удаления шума через линейное внимание. Наконец, предварительно обучая на нашем наборе данных и дорабатывая на открытых эталонных тестах, мы получаем PixelHacker. Многочисленные эксперименты показывают, что PixelHacker значительно превосходит современные методы на широком спектре наборов данных (Places2, CelebA-HQ и FFHQ) и демонстрирует замечательную согласованность как в структуре, так и в семантике. Страница проекта доступна по адресу https://hustvl.github.io/PixelHacker.
English
Image inpainting is a fundamental research area between image editing and
image generation. Recent state-of-the-art (SOTA) methods have explored novel
attention mechanisms, lightweight architectures, and context-aware modeling,
demonstrating impressive performance. However, they often struggle with complex
structure (e.g., texture, shape, spatial relations) and semantics (e.g., color
consistency, object restoration, and logical correctness), leading to artifacts
and inappropriate generation. To address this challenge, we design a simple yet
effective inpainting paradigm called latent categories guidance, and further
propose a diffusion-based model named PixelHacker. Specifically, we first
construct a large dataset containing 14 million image-mask pairs by annotating
foreground and background (potential 116 and 21 categories, respectively).
Then, we encode potential foreground and background representations separately
through two fixed-size embeddings, and intermittently inject these features
into the denoising process via linear attention. Finally, by pre-training on
our dataset and fine-tuning on open-source benchmarks, we obtain PixelHacker.
Extensive experiments show that PixelHacker comprehensively outperforms the
SOTA on a wide range of datasets (Places2, CelebA-HQ, and FFHQ) and exhibits
remarkable consistency in both structure and semantics. Project page at
https://hustvl.github.io/PixelHacker.