PixelHacker: Preenchimento de Imagens com Consistência Estrutural e Semântica
PixelHacker: Image Inpainting with Structural and Semantic Consistency
April 29, 2025
Autores: Ziyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang
cs.AI
Resumo
A restauração de imagens é uma área fundamental de pesquisa entre edição e geração de imagens. Métodos recentes de última geração (state-of-the-art, SOTA) têm explorado novos mecanismos de atenção, arquiteturas leves e modelagem contextual, demonstrando desempenho impressionante. No entanto, eles frequentemente enfrentam dificuldades com estruturas complexas (por exemplo, textura, forma, relações espaciais) e semântica (por exemplo, consistência de cores, restauração de objetos e correção lógica), resultando em artefatos e gerações inadequadas. Para enfrentar esse desafio, projetamos um paradigma de restauração simples, porém eficaz, chamado orientação por categorias latentes, e propomos ainda um modelo baseado em difusão denominado PixelHacker. Especificamente, primeiro construímos um grande conjunto de dados contendo 14 milhões de pares imagem-máscara, anotando primeiro plano e fundo (com 116 e 21 categorias potenciais, respectivamente). Em seguida, codificamos separadamente as representações potenciais de primeiro plano e fundo por meio de dois embeddings de tamanho fixo, e injetamos intermitentemente esses recursos no processo de remoção de ruído via atenção linear. Por fim, ao pré-treinar em nosso conjunto de dados e ajustar finamente em benchmarks de código aberto, obtemos o PixelHacker. Experimentos extensivos mostram que o PixelHacker supera amplamente os métodos SOTA em uma variedade de conjuntos de dados (Places2, CelebA-HQ e FFHQ) e exibe consistência notável tanto em estrutura quanto em semântica. Página do projeto em https://hustvl.github.io/PixelHacker.
English
Image inpainting is a fundamental research area between image editing and
image generation. Recent state-of-the-art (SOTA) methods have explored novel
attention mechanisms, lightweight architectures, and context-aware modeling,
demonstrating impressive performance. However, they often struggle with complex
structure (e.g., texture, shape, spatial relations) and semantics (e.g., color
consistency, object restoration, and logical correctness), leading to artifacts
and inappropriate generation. To address this challenge, we design a simple yet
effective inpainting paradigm called latent categories guidance, and further
propose a diffusion-based model named PixelHacker. Specifically, we first
construct a large dataset containing 14 million image-mask pairs by annotating
foreground and background (potential 116 and 21 categories, respectively).
Then, we encode potential foreground and background representations separately
through two fixed-size embeddings, and intermittently inject these features
into the denoising process via linear attention. Finally, by pre-training on
our dataset and fine-tuning on open-source benchmarks, we obtain PixelHacker.
Extensive experiments show that PixelHacker comprehensively outperforms the
SOTA on a wide range of datasets (Places2, CelebA-HQ, and FFHQ) and exhibits
remarkable consistency in both structure and semantics. Project page at
https://hustvl.github.io/PixelHacker.