HiFi-Inpaint: Rumo a um Preenchimento de Imagens Baseado em Referência de Alta Fidelidade para Geração de Imagens de Produtos com Humanos que Preservam Detalhes
HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images
March 2, 2026
Autores: Yichen Liu, Donghao Zhou, Jie Wang, Xin Gao, Guisheng Liu, Jiatong Li, Quanwei Zhang, Qiang Lyu, Lanqing Guo, Shilei Wen, Weiqiang Wang, Pheng-Ann Heng
cs.AI
Resumo
Imagens de produtos com humanos, que demonstram a integração entre pessoas e produtos, desempenham um papel vital na publicidade, comércio eletrónico e marketing digital. O desafio essencial na geração de tais imagens reside em garantir a preservação de alta fidelidade dos detalhes do produto. Entre os paradigmas existentes, o preenchimento por referência oferece uma solução direcionada, utilizando imagens de referência do produto para orientar o processo de reconstrução. No entanto, persistem limitações em três aspetos-chave: a escassez de dados de treino em grande escala e diversificados, a dificuldade dos modelos atuais em focar-se na preservação de detalhes do produto e a incapacidade de uma supervisão grosseira para alcançar uma orientação precisa. Para resolver estas questões, propomos o HiFi-Inpaint, uma nova estrutura de preenchimento por referência de alta fidelidade, concebida para gerar imagens de produtos com humanos. O HiFi-Inpaint introduz o Mecanismo de Atenção de Aprimoramento Partilhado (SEA) para refinar características de granularidade fina do produto e uma Função de Perda Sensível a Detalhes (DAL) para impor uma supervisão precisa a nível de píxel usando mapas de alta frequência. Adicionalmente, construímos um novo conjunto de dados, o HP-Image-40K, com amostras curadas a partir de dados de auto-síntese e processadas com filtragem automática. Resultados experimentais mostram que o HiFi-Inpaint alcança um desempenho state-of-the-art, produzindo imagens de produtos com humanos que preservam detalhes.
English
Human-product images, which showcase the integration of humans and products, play a vital role in advertising, e-commerce, and digital marketing. The essential challenge of generating such images lies in ensuring the high-fidelity preservation of product details. Among existing paradigms, reference-based inpainting offers a targeted solution by leveraging product reference images to guide the inpainting process. However, limitations remain in three key aspects: the lack of diverse large-scale training data, the struggle of current models to focus on product detail preservation, and the inability of coarse supervision for achieving precise guidance. To address these issues, we propose HiFi-Inpaint, a novel high-fidelity reference-based inpainting framework tailored for generating human-product images. HiFi-Inpaint introduces Shared Enhancement Attention (SEA) to refine fine-grained product features and Detail-Aware Loss (DAL) to enforce precise pixel-level supervision using high-frequency maps. Additionally, we construct a new dataset, HP-Image-40K, with samples curated from self-synthesis data and processed with automatic filtering. Experimental results show that HiFi-Inpaint achieves state-of-the-art performance, delivering detail-preserving human-product images.