ChatPaper.aiChatPaper

Weet FLUX al hoe het fysisch plausibele beeldcompositie moet uitvoeren?

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

September 25, 2025
Auteurs: Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong
cs.AI

Samenvatting

Beeldsamenstelling heeft als doel om een door de gebruiker gespecificeerd object naadloos in een nieuwe scène in te voegen, maar bestaande modellen worstelen met complexe belichting (bijv. nauwkeurige schaduwen, waterreflecties) en diverse, hoogwaardige invoer. Moderne tekst-naar-beeld diffusiemodellen (bijv. SD3.5, FLUX) bevatten al essentiële fysieke en resolutieprioriteiten, maar missen een raamwerk om deze te benutten zonder gebruik te maken van latente inversie, wat vaak objectposities vastzet in contextueel ongeschikte oriëntaties, of kwetsbare aandachtschirurgie. Wij stellen SHINE voor, een trainingsvrij raamwerk voor Naadloze, Hoogwaardige Invoeging met Geneutraliseerde Fouten. SHINE introduceert manifold-gestuurde ankerverlies, waarbij gebruik wordt gemaakt van vooraf getrainde aanpassingsadapters (bijv. IP-Adapter) om latenten te begeleiden voor een getrouwe weergave van het onderwerp terwijl de achtergrondintegriteit behouden blijft. Degradatieonderdrukkende begeleiding en adaptieve achtergrondmenging worden voorgesteld om verdere lage kwaliteit uitvoer en zichtbare naden te elimineren. Om het gebrek aan rigoureuze benchmarks aan te pakken, introduceren wij ComplexCompo, met diverse resoluties en uitdagende omstandigheden zoals weinig licht, sterke verlichting, ingewikkelde schaduwen en reflecterende oppervlakken. Experimenten op ComplexCompo en DreamEditBench tonen state-of-the-art prestaties op standaard metrieken (bijv. DINOv2) en mensgericht scores (bijv. DreamSim, ImageReward, VisionReward). Code en benchmark zullen na publicatie openbaar beschikbaar zijn.
English
Image composition aims to seamlessly insert a user-specified object into a new scene, but existing models struggle with complex lighting (e.g., accurate shadows, water reflections) and diverse, high-resolution inputs. Modern text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential physical and resolution priors, yet lack a framework to unleash them without resorting to latent inversion, which often locks object poses into contextually inappropriate orientations, or brittle attention surgery. We propose SHINE, a training-free framework for Seamless, High-fidelity Insertion with Neutralized Errors. SHINE introduces manifold-steered anchor loss, leveraging pretrained customization adapters (e.g., IP-Adapter) to guide latents for faithful subject representation while preserving background integrity. Degradation-suppression guidance and adaptive background blending are proposed to further eliminate low-quality outputs and visible seams. To address the lack of rigorous benchmarks, we introduce ComplexCompo, featuring diverse resolutions and challenging conditions such as low lighting, strong illumination, intricate shadows, and reflective surfaces. Experiments on ComplexCompo and DreamEditBench show state-of-the-art performance on standard metrics (e.g., DINOv2) and human-aligned scores (e.g., DreamSim, ImageReward, VisionReward). Code and benchmark will be publicly available upon publication.
PDF144September 26, 2025