HiFi-Inpaint: Verso un Inpainting Basato su Riferimento ad Alta Fedeltà per la Generazione di Immagini Umano-Prodotto con Preservazione dei Dettagli
HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images
March 2, 2026
Autori: Yichen Liu, Donghao Zhou, Jie Wang, Xin Gao, Guisheng Liu, Jiatong Li, Quanwei Zhang, Qiang Lyu, Lanqing Guo, Shilei Wen, Weiqiang Wang, Pheng-Ann Heng
cs.AI
Abstract
Le immagini uomo-prodotto, che mostrano l'integrazione tra esseri umani e prodotti, svolgono un ruolo vitale nella pubblicità, nell'e-commerce e nel marketing digitale. La sfida principale nella generazione di tali immagini risiede nel garantire la preservazione fedele dei dettagli del prodotto. Tra i paradigmi esistenti, l'inpainting basato su riferimento offre una soluzione mirata sfruttando immagini di riferimento del prodotto per guidare il processo di inpaint. Tuttavia, permangono limitazioni in tre aspetti chiave: la carenza di dati di training su larga scala e diversificati, la difficoltà dei modelli attuali nel concentrarsi sulla preservazione dei dettagli del prodotto e l'incapacità di una supervisione grossolana di ottenere una guida precisa. Per affrontare questi problemi, proponiamo HiFi-Inpaint, un nuovo framework di inpaint basato su riferimento ad alta fedeltà studiato per generare immagini uomo-prodotto. HiFi-Inpaint introduce l'Attention di Miglioramento Condiviso (SEA) per affinare le caratteristiche granulari del prodotto e una Loss Consapevole dei Dettagli (DAL) per imporre una supervisione precisa a livello di pixel utilizzando mappe ad alta frequenza. Inoltre, abbiamo costruito un nuovo dataset, HP-Image-40K, con campioni curati da dati auto-sintetizzati e processati con filtraggio automatico. I risultati sperimentali mostrano che HiFi-Inpaint raggiunge prestazioni all'avanguardia, producendo immagini uomo-prodotto che preservano i dettagli.
English
Human-product images, which showcase the integration of humans and products, play a vital role in advertising, e-commerce, and digital marketing. The essential challenge of generating such images lies in ensuring the high-fidelity preservation of product details. Among existing paradigms, reference-based inpainting offers a targeted solution by leveraging product reference images to guide the inpainting process. However, limitations remain in three key aspects: the lack of diverse large-scale training data, the struggle of current models to focus on product detail preservation, and the inability of coarse supervision for achieving precise guidance. To address these issues, we propose HiFi-Inpaint, a novel high-fidelity reference-based inpainting framework tailored for generating human-product images. HiFi-Inpaint introduces Shared Enhancement Attention (SEA) to refine fine-grained product features and Detail-Aware Loss (DAL) to enforce precise pixel-level supervision using high-frequency maps. Additionally, we construct a new dataset, HP-Image-40K, with samples curated from self-synthesis data and processed with automatic filtering. Experimental results show that HiFi-Inpaint achieves state-of-the-art performance, delivering detail-preserving human-product images.