¿FLUX ya sabe cómo realizar composiciones de imágenes físicamente plausibles?
Does FLUX Already Know How to Perform Physically Plausible Image Composition?
September 25, 2025
Autores: Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong
cs.AI
Resumen
La composición de imágenes busca insertar de manera fluida un objeto especificado por el usuario en una nueva escena, pero los modelos existentes tienen dificultades con iluminaciones complejas (por ejemplo, sombras precisas, reflejos en el agua) y entradas diversas y de alta resolución. Los modelos modernos de difusión de texto a imagen (por ejemplo, SD3.5, FLUX) ya codifican conocimientos físicos y de resolución esenciales, pero carecen de un marco para liberarlos sin recurrir a la inversión latente, que a menudo fija las poses de los objetos en orientaciones contextualmente inapropiadas, o a cirugías de atención frágiles. Proponemos SHINE, un marco sin entrenamiento para Inserción Fluida y de Alta Fidelidad con Errores Neutralizados. SHINE introduce una pérdida de anclaje guiada por variedades, aprovechando adaptadores de personalización preentrenados (por ejemplo, IP-Adapter) para guiar los latentes hacia una representación fiel del sujeto mientras se preserva la integridad del fondo. Se proponen guías de supresión de degradación y mezcla adaptativa del fondo para eliminar aún más las salidas de baja calidad y las costuras visibles. Para abordar la falta de puntos de referencia rigurosos, presentamos ComplexCompo, que incluye diversas resoluciones y condiciones desafiantes como iluminación baja, iluminación intensa, sombras intrincadas y superficies reflectantes. Los experimentos en ComplexCompo y DreamEditBench muestran un rendimiento de vanguardia en métricas estándar (por ejemplo, DINOv2) y puntuaciones alineadas con la percepción humana (por ejemplo, DreamSim, ImageReward, VisionReward). El código y el punto de referencia estarán disponibles públicamente tras la publicación.
English
Image composition aims to seamlessly insert a user-specified object into a
new scene, but existing models struggle with complex lighting (e.g., accurate
shadows, water reflections) and diverse, high-resolution inputs. Modern
text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential
physical and resolution priors, yet lack a framework to unleash them without
resorting to latent inversion, which often locks object poses into contextually
inappropriate orientations, or brittle attention surgery. We propose SHINE, a
training-free framework for Seamless, High-fidelity Insertion with Neutralized
Errors. SHINE introduces manifold-steered anchor loss, leveraging pretrained
customization adapters (e.g., IP-Adapter) to guide latents for faithful subject
representation while preserving background integrity. Degradation-suppression
guidance and adaptive background blending are proposed to further eliminate
low-quality outputs and visible seams. To address the lack of rigorous
benchmarks, we introduce ComplexCompo, featuring diverse resolutions and
challenging conditions such as low lighting, strong illumination, intricate
shadows, and reflective surfaces. Experiments on ComplexCompo and
DreamEditBench show state-of-the-art performance on standard metrics (e.g.,
DINOv2) and human-aligned scores (e.g., DreamSim, ImageReward, VisionReward).
Code and benchmark will be publicly available upon publication.