O FLUX Já Sabe Como Realizar Composição de Imagens Fisicamente Plausível?
Does FLUX Already Know How to Perform Physically Plausible Image Composition?
September 25, 2025
Autores: Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong
cs.AI
Resumo
A composição de imagens visa inserir de forma perfeita um objeto especificado pelo usuário em uma nova cena, mas os modelos existentes enfrentam dificuldades com iluminação complexa (por exemplo, sombras precisas, reflexos na água) e entradas diversas e de alta resolução. Os modernos modelos de difusão de texto para imagem (por exemplo, SD3.5, FLUX) já codificam prioridades físicas e de resolução essenciais, mas carecem de uma estrutura para liberá-las sem recorrer à inversão latente, que frequentemente fixa as poses dos objetos em orientações contextualmente inadequadas, ou à cirurgia de atenção frágil. Propomos o SHINE, uma estrutura livre de treinamento para Inserção Contínua e de Alta Fidelidade com Erros Neutralizados. O SHINE introduz a perda de âncora orientada por variedade, aproveitando adaptadores de personalização pré-treinados (por exemplo, IP-Adapter) para guiar os latentes para uma representação fiel do sujeito, preservando a integridade do fundo. A orientação de supressão de degradação e a mistura adaptativa de fundo são propostas para eliminar ainda mais saídas de baixa qualidade e costuras visíveis. Para abordar a falta de benchmarks rigorosos, introduzimos o ComplexCompo, que apresenta diversas resoluções e condições desafiadoras, como iluminação baixa, iluminação intensa, sombras intrincadas e superfícies reflexivas. Experimentos no ComplexCompo e no DreamEditBench mostram desempenho de ponta em métricas padrão (por exemplo, DINOv2) e pontuações alinhadas com humanos (por exemplo, DreamSim, ImageReward, VisionReward). O código e o benchmark estarão publicamente disponíveis após a publicação.
English
Image composition aims to seamlessly insert a user-specified object into a
new scene, but existing models struggle with complex lighting (e.g., accurate
shadows, water reflections) and diverse, high-resolution inputs. Modern
text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential
physical and resolution priors, yet lack a framework to unleash them without
resorting to latent inversion, which often locks object poses into contextually
inappropriate orientations, or brittle attention surgery. We propose SHINE, a
training-free framework for Seamless, High-fidelity Insertion with Neutralized
Errors. SHINE introduces manifold-steered anchor loss, leveraging pretrained
customization adapters (e.g., IP-Adapter) to guide latents for faithful subject
representation while preserving background integrity. Degradation-suppression
guidance and adaptive background blending are proposed to further eliminate
low-quality outputs and visible seams. To address the lack of rigorous
benchmarks, we introduce ComplexCompo, featuring diverse resolutions and
challenging conditions such as low lighting, strong illumination, intricate
shadows, and reflective surfaces. Experiments on ComplexCompo and
DreamEditBench show state-of-the-art performance on standard metrics (e.g.,
DINOv2) and human-aligned scores (e.g., DreamSim, ImageReward, VisionReward).
Code and benchmark will be publicly available upon publication.