Weet FLUX al hoe het fysisch plausibele beeldcompositie moet uitvoeren?
Does FLUX Already Know How to Perform Physically Plausible Image Composition?
September 25, 2025
Auteurs: Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong
cs.AI
Samenvatting
Beeldsamenstelling heeft als doel om een door de gebruiker gespecificeerd object naadloos in een nieuwe scène in te voegen, maar bestaande modellen worstelen met complexe belichting (bijv. nauwkeurige schaduwen, waterreflecties) en diverse, hoogwaardige invoer. Moderne tekst-naar-beeld diffusiemodellen (bijv. SD3.5, FLUX) bevatten al essentiële fysieke en resolutieprioriteiten, maar missen een raamwerk om deze te benutten zonder gebruik te maken van latente inversie, wat vaak objectposities vastzet in contextueel ongeschikte oriëntaties, of kwetsbare aandachtschirurgie. Wij stellen SHINE voor, een trainingsvrij raamwerk voor Naadloze, Hoogwaardige Invoeging met Geneutraliseerde Fouten. SHINE introduceert manifold-gestuurde ankerverlies, waarbij gebruik wordt gemaakt van vooraf getrainde aanpassingsadapters (bijv. IP-Adapter) om latenten te begeleiden voor een getrouwe weergave van het onderwerp terwijl de achtergrondintegriteit behouden blijft. Degradatieonderdrukkende begeleiding en adaptieve achtergrondmenging worden voorgesteld om verdere lage kwaliteit uitvoer en zichtbare naden te elimineren. Om het gebrek aan rigoureuze benchmarks aan te pakken, introduceren wij ComplexCompo, met diverse resoluties en uitdagende omstandigheden zoals weinig licht, sterke verlichting, ingewikkelde schaduwen en reflecterende oppervlakken. Experimenten op ComplexCompo en DreamEditBench tonen state-of-the-art prestaties op standaard metrieken (bijv. DINOv2) en mensgericht scores (bijv. DreamSim, ImageReward, VisionReward). Code en benchmark zullen na publicatie openbaar beschikbaar zijn.
English
Image composition aims to seamlessly insert a user-specified object into a
new scene, but existing models struggle with complex lighting (e.g., accurate
shadows, water reflections) and diverse, high-resolution inputs. Modern
text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential
physical and resolution priors, yet lack a framework to unleash them without
resorting to latent inversion, which often locks object poses into contextually
inappropriate orientations, or brittle attention surgery. We propose SHINE, a
training-free framework for Seamless, High-fidelity Insertion with Neutralized
Errors. SHINE introduces manifold-steered anchor loss, leveraging pretrained
customization adapters (e.g., IP-Adapter) to guide latents for faithful subject
representation while preserving background integrity. Degradation-suppression
guidance and adaptive background blending are proposed to further eliminate
low-quality outputs and visible seams. To address the lack of rigorous
benchmarks, we introduce ComplexCompo, featuring diverse resolutions and
challenging conditions such as low lighting, strong illumination, intricate
shadows, and reflective surfaces. Experiments on ComplexCompo and
DreamEditBench show state-of-the-art performance on standard metrics (e.g.,
DINOv2) and human-aligned scores (e.g., DreamSim, ImageReward, VisionReward).
Code and benchmark will be publicly available upon publication.