Weiß FLUX bereits, wie physikalisch plausible Bildkomposition durchgeführt wird?
Does FLUX Already Know How to Perform Physically Plausible Image Composition?
September 25, 2025
papers.authors: Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong
cs.AI
papers.abstract
Die Bildkomposition zielt darauf ab, ein benutzerdefiniertes Objekt nahtlos in eine neue Szene einzufügen, doch bestehende Modelle haben Schwierigkeiten mit komplexen Lichtverhältnissen (z. B. präzise Schatten, Wasserreflexionen) und vielfältigen, hochauflösenden Eingaben. Moderne Text-zu-Bild-Diffusionsmodelle (z. B. SD3.5, FLUX) kodieren bereits wesentliche physikalische und Auflösungs-Priors, es fehlt jedoch ein Framework, um diese ohne Rückgriff auf latente Inversion freizusetzen, die oft Objektposen in kontextuell unpassende Orientierungen zwingt, oder auf fragile Attention-Surgery. Wir schlagen SHINE vor, ein trainingsfreies Framework für nahtlose, hochauflösende Einfügung mit neutralisierten Fehlern. SHINE führt den manifold-gesteuerten Anchor-Loss ein, der vortrainierte Anpassungsadapter (z. B. IP-Adapter) nutzt, um Latents für eine treue Darstellung des Subjekts zu leiten, während die Hintergrundintegrität bewahrt wird. Degradationsunterdrückungsführung und adaptives Hintergrundblending werden vorgeschlagen, um qualitativ minderwertige Ausgaben und sichtbare Nahtstellen weiter zu eliminieren. Um den Mangel an rigorosen Benchmarks zu beheben, führen wir ComplexCompo ein, das vielfältige Auflösungen und herausfordernde Bedingungen wie schwache Beleuchtung, starke Lichtverhältnisse, komplexe Schatten und reflektierende Oberflächen bietet. Experimente auf ComplexCompo und DreamEditBench zeigen state-of-the-art Leistung bei Standardmetriken (z. B. DINOv2) und menschlich ausgerichteten Bewertungen (z. B. DreamSim, ImageReward, VisionReward). Code und Benchmark werden nach der Veröffentlichung öffentlich zugänglich sein.
English
Image composition aims to seamlessly insert a user-specified object into a
new scene, but existing models struggle with complex lighting (e.g., accurate
shadows, water reflections) and diverse, high-resolution inputs. Modern
text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential
physical and resolution priors, yet lack a framework to unleash them without
resorting to latent inversion, which often locks object poses into contextually
inappropriate orientations, or brittle attention surgery. We propose SHINE, a
training-free framework for Seamless, High-fidelity Insertion with Neutralized
Errors. SHINE introduces manifold-steered anchor loss, leveraging pretrained
customization adapters (e.g., IP-Adapter) to guide latents for faithful subject
representation while preserving background integrity. Degradation-suppression
guidance and adaptive background blending are proposed to further eliminate
low-quality outputs and visible seams. To address the lack of rigorous
benchmarks, we introduce ComplexCompo, featuring diverse resolutions and
challenging conditions such as low lighting, strong illumination, intricate
shadows, and reflective surfaces. Experiments on ComplexCompo and
DreamEditBench show state-of-the-art performance on standard metrics (e.g.,
DINOv2) and human-aligned scores (e.g., DreamSim, ImageReward, VisionReward).
Code and benchmark will be publicly available upon publication.