FLUX sait-il déjà comment réaliser une composition d'image physiquement plausible ?
Does FLUX Already Know How to Perform Physically Plausible Image Composition?
September 25, 2025
papers.authors: Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong
cs.AI
papers.abstract
La composition d'image vise à insérer de manière fluide un objet spécifié par l'utilisateur dans une nouvelle scène, mais les modèles existants peinent à gérer des éclairages complexes (par exemple, des ombres précises, des reflets sur l'eau) et des entrées diversifiées et haute résolution. Les modèles modernes de diffusion texte-image (par exemple, SD3.5, FLUX) encodent déjà des a priori physiques et de résolution essentiels, mais manquent d'un cadre pour les exploiter sans recourir à l'inversion latente, qui verrouille souvent les poses des objets dans des orientations contextuellement inappropriées, ou à une chirurgie d'attention fragile. Nous proposons SHINE, un cadre sans entraînement pour une Insertion Fluide et Haute Fidélité avec Erreurs Neutralisées. SHINE introduit une perte d'ancrage guidée par la variété, exploitant des adaptateurs de personnalisation pré-entraînés (par exemple, IP-Adapter) pour guider les latents afin de représenter fidèlement le sujet tout en préservant l'intégrité de l'arrière-plan. Une guidance de suppression de la dégradation et un mélange adaptatif de l'arrière-plan sont proposés pour éliminer davantage les sorties de faible qualité et les coutures visibles. Pour pallier le manque de benchmarks rigoureux, nous introduisons ComplexCompo, qui présente des résolutions variées et des conditions difficiles telles qu'un faible éclairage, une forte illumination, des ombres complexes et des surfaces réfléchissantes. Les expériences sur ComplexCompo et DreamEditBench montrent des performances de pointe sur des métriques standard (par exemple, DINOv2) et des scores alignés sur l'humain (par exemple, DreamSim, ImageReward, VisionReward). Le code et le benchmark seront rendus publics lors de la publication.
English
Image composition aims to seamlessly insert a user-specified object into a
new scene, but existing models struggle with complex lighting (e.g., accurate
shadows, water reflections) and diverse, high-resolution inputs. Modern
text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential
physical and resolution priors, yet lack a framework to unleash them without
resorting to latent inversion, which often locks object poses into contextually
inappropriate orientations, or brittle attention surgery. We propose SHINE, a
training-free framework for Seamless, High-fidelity Insertion with Neutralized
Errors. SHINE introduces manifold-steered anchor loss, leveraging pretrained
customization adapters (e.g., IP-Adapter) to guide latents for faithful subject
representation while preserving background integrity. Degradation-suppression
guidance and adaptive background blending are proposed to further eliminate
low-quality outputs and visible seams. To address the lack of rigorous
benchmarks, we introduce ComplexCompo, featuring diverse resolutions and
challenging conditions such as low lighting, strong illumination, intricate
shadows, and reflective surfaces. Experiments on ComplexCompo and
DreamEditBench show state-of-the-art performance on standard metrics (e.g.,
DINOv2) and human-aligned scores (e.g., DreamSim, ImageReward, VisionReward).
Code and benchmark will be publicly available upon publication.