HiFi-Inpaint : Vers une restauration par référence haute fidélité pour la génération d'images personne-produit préservant les détails
HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images
March 2, 2026
Auteurs: Yichen Liu, Donghao Zhou, Jie Wang, Xin Gao, Guisheng Liu, Jiatong Li, Quanwei Zhang, Qiang Lyu, Lanqing Guo, Shilei Wen, Weiqiang Wang, Pheng-Ann Heng
cs.AI
Résumé
Les images humain-produit, qui mettent en valeur l'intégration entre les personnes et les produits, jouent un rôle essentiel dans la publicité, le commerce électronique et le marketing digital. Le principal défi de la génération de telles images réside dans la préservation haute fidélité des détails du produit. Parmi les paradigmes existants, l'inpainting par référence offre une solution ciblée en utilisant des images de référence du produit pour guider le processus. Cependant, des limitations subsistent dans trois aspects clés : le manque de données d'entraînement à grande échelle et diversifiées, la difficulté des modèles actuels à se concentrer sur la préservation des détails du produit, et l'incapacité d'une supervision grossière à fournir un guidage précis. Pour résoudre ces problèmes, nous proposons HiFi-Inpaint, un nouveau cadre d'inpainting par référence haute fidélité spécialement conçu pour générer des images humain-produit. HiFi-Inpaint introduit un mécanisme d'attention partagée améliorée (SEA) pour affiner les caractéristiques fines du produit et une fonction de perte sensible aux détails (DAL) pour imposer une supervision précise au niveau pixel à l'aide de cartes haute fréquence. De plus, nous avons constitué un nouveau jeu de données, HP-Image-40K, avec des échantillons créés à partir de données auto-synthétisées et traités par filtrage automatique. Les résultats expérimentaux montrent que HiFi-Inpaint obtient des performances à l'état de l'art, produisant des images humain-produit qui préservent excellemment les détails.
English
Human-product images, which showcase the integration of humans and products, play a vital role in advertising, e-commerce, and digital marketing. The essential challenge of generating such images lies in ensuring the high-fidelity preservation of product details. Among existing paradigms, reference-based inpainting offers a targeted solution by leveraging product reference images to guide the inpainting process. However, limitations remain in three key aspects: the lack of diverse large-scale training data, the struggle of current models to focus on product detail preservation, and the inability of coarse supervision for achieving precise guidance. To address these issues, we propose HiFi-Inpaint, a novel high-fidelity reference-based inpainting framework tailored for generating human-product images. HiFi-Inpaint introduces Shared Enhancement Attention (SEA) to refine fine-grained product features and Detail-Aware Loss (DAL) to enforce precise pixel-level supervision using high-frequency maps. Additionally, we construct a new dataset, HP-Image-40K, with samples curated from self-synthesis data and processed with automatic filtering. Experimental results show that HiFi-Inpaint achieves state-of-the-art performance, delivering detail-preserving human-product images.