PixelHacker: Ricostruzione di Immagini con Coerenza Strutturale e Semantica
PixelHacker: Image Inpainting with Structural and Semantic Consistency
April 29, 2025
Autori: Ziyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang
cs.AI
Abstract
L'image inpainting è un'area di ricerca fondamentale che si colloca tra l'editing e la generazione di immagini. I metodi più recenti all'avanguardia (SOTA) hanno esplorato meccanismi di attenzione innovativi, architetture leggere e modellazione contestuale, dimostrando prestazioni impressionanti. Tuttavia, spesso faticano a gestire strutture complesse (ad esempio, texture, forma, relazioni spaziali) e aspetti semantici (ad esempio, coerenza cromatica, ripristino di oggetti e correttezza logica), portando alla comparsa di artefatti e generazioni inappropriate. Per affrontare questa sfida, abbiamo progettato un paradigma di inpainting semplice ma efficace chiamato "latent categories guidance" e proposto un modello basato su diffusione denominato PixelHacker. Nello specifico, abbiamo prima costruito un ampio dataset contenente 14 milioni di coppie immagine-maschera, annotando i primi piani e gli sfondi (con 116 e 21 categorie potenziali, rispettivamente). Successivamente, abbiamo codificato separatamente le rappresentazioni potenziali dei primi piani e degli sfondi attraverso due embedding di dimensione fissa, iniettando in modo intermittente queste caratteristiche nel processo di denoising tramite attenzione lineare. Infine, pre-addestrando il modello sul nostro dataset e perfezionandolo su benchmark open-source, abbiamo ottenuto PixelHacker. Esperimenti estensivi dimostrano che PixelHacker supera in modo completo i metodi SOTA su un'ampia gamma di dataset (Places2, CelebA-HQ e FFHQ) e mostra una notevole coerenza sia nella struttura che nella semantica. Pagina del progetto: https://hustvl.github.io/PixelHacker.
English
Image inpainting is a fundamental research area between image editing and
image generation. Recent state-of-the-art (SOTA) methods have explored novel
attention mechanisms, lightweight architectures, and context-aware modeling,
demonstrating impressive performance. However, they often struggle with complex
structure (e.g., texture, shape, spatial relations) and semantics (e.g., color
consistency, object restoration, and logical correctness), leading to artifacts
and inappropriate generation. To address this challenge, we design a simple yet
effective inpainting paradigm called latent categories guidance, and further
propose a diffusion-based model named PixelHacker. Specifically, we first
construct a large dataset containing 14 million image-mask pairs by annotating
foreground and background (potential 116 and 21 categories, respectively).
Then, we encode potential foreground and background representations separately
through two fixed-size embeddings, and intermittently inject these features
into the denoising process via linear attention. Finally, by pre-training on
our dataset and fine-tuning on open-source benchmarks, we obtain PixelHacker.
Extensive experiments show that PixelHacker comprehensively outperforms the
SOTA on a wide range of datasets (Places2, CelebA-HQ, and FFHQ) and exhibits
remarkable consistency in both structure and semantics. Project page at
https://hustvl.github.io/PixelHacker.