FLUX sait-il déjà comment réaliser une composition d'image physiquement plausible ?

papers.abstract

La composition d'image vise à insérer de manière fluide un objet spécifié par l'utilisateur dans une nouvelle scène, mais les modèles existants peinent à gérer des éclairages complexes (par exemple, des ombres précises, des reflets sur l'eau) et des entrées diversifiées et haute résolution. Les modèles modernes de diffusion texte-image (par exemple, SD3.5, FLUX) encodent déjà des a priori physiques et de résolution essentiels, mais manquent d'un cadre pour les exploiter sans recourir à l'inversion latente, qui verrouille souvent les poses des objets dans des orientations contextuellement inappropriées, ou à une chirurgie d'attention fragile. Nous proposons SHINE, un cadre sans entraînement pour une Insertion Fluide et Haute Fidélité avec Erreurs Neutralisées. SHINE introduit une perte d'ancrage guidée par la variété, exploitant des adaptateurs de personnalisation pré-entraînés (par exemple, IP-Adapter) pour guider les latents afin de représenter fidèlement le sujet tout en préservant l'intégrité de l'arrière-plan. Une guidance de suppression de la dégradation et un mélange adaptatif de l'arrière-plan sont proposés pour éliminer davantage les sorties de faible qualité et les coutures visibles. Pour pallier le manque de benchmarks rigoureux, nous introduisons ComplexCompo, qui présente des résolutions variées et des conditions difficiles telles qu'un faible éclairage, une forte illumination, des ombres complexes et des surfaces réfléchissantes. Les expériences sur ComplexCompo et DreamEditBench montrent des performances de pointe sur des métriques standard (par exemple, DINOv2) et des scores alignés sur l'humain (par exemple, DreamSim, ImageReward, VisionReward). Le code et le benchmark seront rendus publics lors de la publication.

English

Image composition aims to seamlessly insert a user-specified object into a new scene, but existing models struggle with complex lighting (e.g., accurate shadows, water reflections) and diverse, high-resolution inputs. Modern text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential physical and resolution priors, yet lack a framework to unleash them without resorting to latent inversion, which often locks object poses into contextually inappropriate orientations, or brittle attention surgery. We propose SHINE, a training-free framework for Seamless, High-fidelity Insertion with Neutralized Errors. SHINE introduces manifold-steered anchor loss, leveraging pretrained customization adapters (e.g., IP-Adapter) to guide latents for faithful subject representation while preserving background integrity. Degradation-suppression guidance and adaptive background blending are proposed to further eliminate low-quality outputs and visible seams. To address the lack of rigorous benchmarks, we introduce ComplexCompo, featuring diverse resolutions and challenging conditions such as low lighting, strong illumination, intricate shadows, and reflective surfaces. Experiments on ComplexCompo and DreamEditBench show state-of-the-art performance on standard metrics (e.g., DINOv2) and human-aligned scores (e.g., DreamSim, ImageReward, VisionReward). Code and benchmark will be publicly available upon publication.

FLUX sait-il déjà comment réaliser une composition d'image physiquement plausible ?

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

papers.abstract

Support