ChatPaper.aiChatPaper

Weiß FLUX bereits, wie physikalisch plausible Bildkomposition durchgeführt wird?

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

September 25, 2025
papers.authors: Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong
cs.AI

papers.abstract

Die Bildkomposition zielt darauf ab, ein benutzerdefiniertes Objekt nahtlos in eine neue Szene einzufügen, doch bestehende Modelle haben Schwierigkeiten mit komplexen Lichtverhältnissen (z. B. präzise Schatten, Wasserreflexionen) und vielfältigen, hochauflösenden Eingaben. Moderne Text-zu-Bild-Diffusionsmodelle (z. B. SD3.5, FLUX) kodieren bereits wesentliche physikalische und Auflösungs-Priors, es fehlt jedoch ein Framework, um diese ohne Rückgriff auf latente Inversion freizusetzen, die oft Objektposen in kontextuell unpassende Orientierungen zwingt, oder auf fragile Attention-Surgery. Wir schlagen SHINE vor, ein trainingsfreies Framework für nahtlose, hochauflösende Einfügung mit neutralisierten Fehlern. SHINE führt den manifold-gesteuerten Anchor-Loss ein, der vortrainierte Anpassungsadapter (z. B. IP-Adapter) nutzt, um Latents für eine treue Darstellung des Subjekts zu leiten, während die Hintergrundintegrität bewahrt wird. Degradationsunterdrückungsführung und adaptives Hintergrundblending werden vorgeschlagen, um qualitativ minderwertige Ausgaben und sichtbare Nahtstellen weiter zu eliminieren. Um den Mangel an rigorosen Benchmarks zu beheben, führen wir ComplexCompo ein, das vielfältige Auflösungen und herausfordernde Bedingungen wie schwache Beleuchtung, starke Lichtverhältnisse, komplexe Schatten und reflektierende Oberflächen bietet. Experimente auf ComplexCompo und DreamEditBench zeigen state-of-the-art Leistung bei Standardmetriken (z. B. DINOv2) und menschlich ausgerichteten Bewertungen (z. B. DreamSim, ImageReward, VisionReward). Code und Benchmark werden nach der Veröffentlichung öffentlich zugänglich sein.
English
Image composition aims to seamlessly insert a user-specified object into a new scene, but existing models struggle with complex lighting (e.g., accurate shadows, water reflections) and diverse, high-resolution inputs. Modern text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential physical and resolution priors, yet lack a framework to unleash them without resorting to latent inversion, which often locks object poses into contextually inappropriate orientations, or brittle attention surgery. We propose SHINE, a training-free framework for Seamless, High-fidelity Insertion with Neutralized Errors. SHINE introduces manifold-steered anchor loss, leveraging pretrained customization adapters (e.g., IP-Adapter) to guide latents for faithful subject representation while preserving background integrity. Degradation-suppression guidance and adaptive background blending are proposed to further eliminate low-quality outputs and visible seams. To address the lack of rigorous benchmarks, we introduce ComplexCompo, featuring diverse resolutions and challenging conditions such as low lighting, strong illumination, intricate shadows, and reflective surfaces. Experiments on ComplexCompo and DreamEditBench show state-of-the-art performance on standard metrics (e.g., DINOv2) and human-aligned scores (e.g., DreamSim, ImageReward, VisionReward). Code and benchmark will be publicly available upon publication.
PDF134September 26, 2025