FLUX Sa Già Come Eseguire una Composizione di Immagini Fisicamente Plausibile?
Does FLUX Already Know How to Perform Physically Plausible Image Composition?
September 25, 2025
Autori: Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong
cs.AI
Abstract
La composizione di immagini mira a inserire in modo fluido un oggetto specificato dall'utente in una nuova scena, ma i modelli esistenti faticano a gestire illuminazioni complesse (ad esempio, ombre accurate, riflessi sull'acqua) e input diversificati ad alta risoluzione. I moderni modelli di diffusione da testo a immagine (ad esempio, SD3.5, FLUX) codificano già priorità fisiche e di risoluzione essenziali, ma mancano di un framework per sfruttarle senza ricorrere all'inversione latente, che spesso blocca le pose degli oggetti in orientamenti contestualmente inappropriati, o a interventi fragili sull'attenzione. Proponiamo SHINE, un framework senza addestramento per un Inserimento Senza Soluzione di Continuità e ad Alta Fedeltà con Errori Neutralizzati. SHINE introduce una perdita di ancoraggio guidata dalla varietà, sfruttando adattatori di personalizzazione pre-addestrati (ad esempio, IP-Adapter) per guidare i latenti verso una rappresentazione fedele del soggetto preservando l'integrità dello sfondo. Vengono proposti una guida alla soppressione del degrado e una fusione adattiva dello sfondo per eliminare ulteriormente output di bassa qualità e cuciture visibili. Per affrontare la mancanza di benchmark rigorosi, introduciamo ComplexCompo, che presenta risoluzioni diversificate e condizioni impegnative come illuminazione ridotta, illuminazione intensa, ombre intricate e superfici riflettenti. Gli esperimenti su ComplexCompo e DreamEditBench mostrano prestazioni all'avanguardia su metriche standard (ad esempio, DINOv2) e punteggi allineati all'umano (ad esempio, DreamSim, ImageReward, VisionReward). Codice e benchmark saranno pubblicamente disponibili alla pubblicazione.
English
Image composition aims to seamlessly insert a user-specified object into a
new scene, but existing models struggle with complex lighting (e.g., accurate
shadows, water reflections) and diverse, high-resolution inputs. Modern
text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential
physical and resolution priors, yet lack a framework to unleash them without
resorting to latent inversion, which often locks object poses into contextually
inappropriate orientations, or brittle attention surgery. We propose SHINE, a
training-free framework for Seamless, High-fidelity Insertion with Neutralized
Errors. SHINE introduces manifold-steered anchor loss, leveraging pretrained
customization adapters (e.g., IP-Adapter) to guide latents for faithful subject
representation while preserving background integrity. Degradation-suppression
guidance and adaptive background blending are proposed to further eliminate
low-quality outputs and visible seams. To address the lack of rigorous
benchmarks, we introduce ComplexCompo, featuring diverse resolutions and
challenging conditions such as low lighting, strong illumination, intricate
shadows, and reflective surfaces. Experiments on ComplexCompo and
DreamEditBench show state-of-the-art performance on standard metrics (e.g.,
DINOv2) and human-aligned scores (e.g., DreamSim, ImageReward, VisionReward).
Code and benchmark will be publicly available upon publication.