ChatPaper.aiChatPaper

HiFi-Inpaint: Op weg naar hoogfideliteit, referentiegebaseerde inpainting voor het genereren van detailbehoudende mens-productafbeeldingen

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

March 2, 2026
Auteurs: Yichen Liu, Donghao Zhou, Jie Wang, Xin Gao, Guisheng Liu, Jiatong Li, Quanwei Zhang, Qiang Lyu, Lanqing Guo, Shilei Wen, Weiqiang Wang, Pheng-Ann Heng
cs.AI

Samenvatting

Mens-productafbeeldingen, die de integratie van mensen en producten tonen, spelen een cruciale rol in reclame, e-commerce en digitale marketing. De grootste uitdaging bij het genereren van dergelijke afbeeldingen ligt in het waarborgen van hoogwaardig behoud van productdetails. Binnen bestaande paradigma's biedt referentiegebaseerde inpainting een gerichte oplossing door gebruik te maken van productreferentieafbeeldingen om het inpainting-proces te sturen. Er blijven echter beperkingen bestaan op drie belangrijke gebieden: het gebrek aan diverse grootschalige trainingsdata, de moeite die huidige modellen hebben om zich te richten op het behoud van productdetails, en de onmogelijkheid van grove supervisie om precieze sturing te bereiken. Om deze problemen aan te pakken, stellen wij HiFi-Inpaint voor, een nieuw referentiegebaseerd inpainting-raamwerk met hoge betrouwbaarheid, speciaal ontworpen voor het genereren van mens-productafbeeldingen. HiFi-Inpaint introduceert Shared Enhancement Attention (SEA) om fijnmazige productkenmerken te verfijnen en Detail-Aware Loss (DAL) om precieze pixel-level supervisie af te dwingen met behulp van hoogfrequente kaarten. Daarnaast hebben wij een nieuwe dataset, HP-Image-40K, samengesteld met monsters die zijn gecureerd uit zelf gesynthetiseerde data en verwerkt met automatische filtering. Experimentele resultaten tonen aan dat HiFi-Inpaint state-of-the-art prestaties bereikt en detailbewarende mens-productafbeeldingen levert.
English
Human-product images, which showcase the integration of humans and products, play a vital role in advertising, e-commerce, and digital marketing. The essential challenge of generating such images lies in ensuring the high-fidelity preservation of product details. Among existing paradigms, reference-based inpainting offers a targeted solution by leveraging product reference images to guide the inpainting process. However, limitations remain in three key aspects: the lack of diverse large-scale training data, the struggle of current models to focus on product detail preservation, and the inability of coarse supervision for achieving precise guidance. To address these issues, we propose HiFi-Inpaint, a novel high-fidelity reference-based inpainting framework tailored for generating human-product images. HiFi-Inpaint introduces Shared Enhancement Attention (SEA) to refine fine-grained product features and Detail-Aware Loss (DAL) to enforce precise pixel-level supervision using high-frequency maps. Additionally, we construct a new dataset, HP-Image-40K, with samples curated from self-synthesis data and processed with automatic filtering. Experimental results show that HiFi-Inpaint achieves state-of-the-art performance, delivering detail-preserving human-product images.
PDF292March 26, 2026