¿FLUX ya sabe cómo realizar composiciones de imágenes físicamente plausibles?

Resumen

La composición de imágenes busca insertar de manera fluida un objeto especificado por el usuario en una nueva escena, pero los modelos existentes tienen dificultades con iluminaciones complejas (por ejemplo, sombras precisas, reflejos en el agua) y entradas diversas y de alta resolución. Los modelos modernos de difusión de texto a imagen (por ejemplo, SD3.5, FLUX) ya codifican conocimientos físicos y de resolución esenciales, pero carecen de un marco para liberarlos sin recurrir a la inversión latente, que a menudo fija las poses de los objetos en orientaciones contextualmente inapropiadas, o a cirugías de atención frágiles. Proponemos SHINE, un marco sin entrenamiento para Inserción Fluida y de Alta Fidelidad con Errores Neutralizados. SHINE introduce una pérdida de anclaje guiada por variedades, aprovechando adaptadores de personalización preentrenados (por ejemplo, IP-Adapter) para guiar los latentes hacia una representación fiel del sujeto mientras se preserva la integridad del fondo. Se proponen guías de supresión de degradación y mezcla adaptativa del fondo para eliminar aún más las salidas de baja calidad y las costuras visibles. Para abordar la falta de puntos de referencia rigurosos, presentamos ComplexCompo, que incluye diversas resoluciones y condiciones desafiantes como iluminación baja, iluminación intensa, sombras intrincadas y superficies reflectantes. Los experimentos en ComplexCompo y DreamEditBench muestran un rendimiento de vanguardia en métricas estándar (por ejemplo, DINOv2) y puntuaciones alineadas con la percepción humana (por ejemplo, DreamSim, ImageReward, VisionReward). El código y el punto de referencia estarán disponibles públicamente tras la publicación.

English

Image composition aims to seamlessly insert a user-specified object into a new scene, but existing models struggle with complex lighting (e.g., accurate shadows, water reflections) and diverse, high-resolution inputs. Modern text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential physical and resolution priors, yet lack a framework to unleash them without resorting to latent inversion, which often locks object poses into contextually inappropriate orientations, or brittle attention surgery. We propose SHINE, a training-free framework for Seamless, High-fidelity Insertion with Neutralized Errors. SHINE introduces manifold-steered anchor loss, leveraging pretrained customization adapters (e.g., IP-Adapter) to guide latents for faithful subject representation while preserving background integrity. Degradation-suppression guidance and adaptive background blending are proposed to further eliminate low-quality outputs and visible seams. To address the lack of rigorous benchmarks, we introduce ComplexCompo, featuring diverse resolutions and challenging conditions such as low lighting, strong illumination, intricate shadows, and reflective surfaces. Experiments on ComplexCompo and DreamEditBench show state-of-the-art performance on standard metrics (e.g., DINOv2) and human-aligned scores (e.g., DreamSim, ImageReward, VisionReward). Code and benchmark will be publicly available upon publication.

¿FLUX ya sabe cómo realizar composiciones de imágenes físicamente plausibles?

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

Resumen

Support