O FLUX Já Sabe Como Realizar Composição de Imagens Fisicamente Plausível?

Resumo

A composição de imagens visa inserir de forma perfeita um objeto especificado pelo usuário em uma nova cena, mas os modelos existentes enfrentam dificuldades com iluminação complexa (por exemplo, sombras precisas, reflexos na água) e entradas diversas e de alta resolução. Os modernos modelos de difusão de texto para imagem (por exemplo, SD3.5, FLUX) já codificam prioridades físicas e de resolução essenciais, mas carecem de uma estrutura para liberá-las sem recorrer à inversão latente, que frequentemente fixa as poses dos objetos em orientações contextualmente inadequadas, ou à cirurgia de atenção frágil. Propomos o SHINE, uma estrutura livre de treinamento para Inserção Contínua e de Alta Fidelidade com Erros Neutralizados. O SHINE introduz a perda de âncora orientada por variedade, aproveitando adaptadores de personalização pré-treinados (por exemplo, IP-Adapter) para guiar os latentes para uma representação fiel do sujeito, preservando a integridade do fundo. A orientação de supressão de degradação e a mistura adaptativa de fundo são propostas para eliminar ainda mais saídas de baixa qualidade e costuras visíveis. Para abordar a falta de benchmarks rigorosos, introduzimos o ComplexCompo, que apresenta diversas resoluções e condições desafiadoras, como iluminação baixa, iluminação intensa, sombras intrincadas e superfícies reflexivas. Experimentos no ComplexCompo e no DreamEditBench mostram desempenho de ponta em métricas padrão (por exemplo, DINOv2) e pontuações alinhadas com humanos (por exemplo, DreamSim, ImageReward, VisionReward). O código e o benchmark estarão publicamente disponíveis após a publicação.

English

Image composition aims to seamlessly insert a user-specified object into a new scene, but existing models struggle with complex lighting (e.g., accurate shadows, water reflections) and diverse, high-resolution inputs. Modern text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential physical and resolution priors, yet lack a framework to unleash them without resorting to latent inversion, which often locks object poses into contextually inappropriate orientations, or brittle attention surgery. We propose SHINE, a training-free framework for Seamless, High-fidelity Insertion with Neutralized Errors. SHINE introduces manifold-steered anchor loss, leveraging pretrained customization adapters (e.g., IP-Adapter) to guide latents for faithful subject representation while preserving background integrity. Degradation-suppression guidance and adaptive background blending are proposed to further eliminate low-quality outputs and visible seams. To address the lack of rigorous benchmarks, we introduce ComplexCompo, featuring diverse resolutions and challenging conditions such as low lighting, strong illumination, intricate shadows, and reflective surfaces. Experiments on ComplexCompo and DreamEditBench show state-of-the-art performance on standard metrics (e.g., DINOv2) and human-aligned scores (e.g., DreamSim, ImageReward, VisionReward). Code and benchmark will be publicly available upon publication.

O FLUX Já Sabe Como Realizar Composição de Imagens Fisicamente Plausível?

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

Resumo

Support