ChatPaper.aiChatPaper

Знает ли FLUX, как выполнять физически правдоподобную композицию изображений?

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

September 25, 2025
Авторы: Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong
cs.AI

Аннотация

Композиция изображений направлена на бесшовное вставление объекта, заданного пользователем, в новую сцену, однако существующие модели испытывают трудности с обработкой сложного освещения (например, точные тени, отражения в воде) и разнообразных входных данных высокого разрешения. Современные диффузионные модели для генерации изображений из текста (например, SD3.5, FLUX) уже кодируют важные физические и разрешающие априорные знания, но им не хватает фреймворка для их раскрытия без использования латентной инверсии, которая часто фиксирует позы объектов в контекстуально неподходящих ориентациях, или хрупких манипуляций с вниманием. Мы предлагаем SHINE, фреймворк без необходимости обучения для бесшовной и высококачественной вставки с устранением ошибок. SHINE вводит потерю с управляемыми якорями на многообразии, используя предобученные адаптеры кастомизации (например, IP-Adapter) для управления латентными представлениями с целью точного воспроизведения объекта при сохранении целостности фона. Предлагаются методы подавления деградации и адаптивного смешивания фона для дальнейшего устранения низкокачественных результатов и видимых швов. Для решения проблемы отсутствия строгих бенчмарков мы представляем ComplexCompo, который включает разнообразные разрешения и сложные условия, такие как слабое освещение, сильная засветка, сложные тени и отражающие поверхности. Эксперименты на ComplexCompo и DreamEditBench демонстрируют передовые результаты по стандартным метрикам (например, DINOv2) и оценкам, согласованным с человеческим восприятием (например, DreamSim, ImageReward, VisionReward). Код и бенчмарк будут общедоступны после публикации.
English
Image composition aims to seamlessly insert a user-specified object into a new scene, but existing models struggle with complex lighting (e.g., accurate shadows, water reflections) and diverse, high-resolution inputs. Modern text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential physical and resolution priors, yet lack a framework to unleash them without resorting to latent inversion, which often locks object poses into contextually inappropriate orientations, or brittle attention surgery. We propose SHINE, a training-free framework for Seamless, High-fidelity Insertion with Neutralized Errors. SHINE introduces manifold-steered anchor loss, leveraging pretrained customization adapters (e.g., IP-Adapter) to guide latents for faithful subject representation while preserving background integrity. Degradation-suppression guidance and adaptive background blending are proposed to further eliminate low-quality outputs and visible seams. To address the lack of rigorous benchmarks, we introduce ComplexCompo, featuring diverse resolutions and challenging conditions such as low lighting, strong illumination, intricate shadows, and reflective surfaces. Experiments on ComplexCompo and DreamEditBench show state-of-the-art performance on standard metrics (e.g., DINOv2) and human-aligned scores (e.g., DreamSim, ImageReward, VisionReward). Code and benchmark will be publicly available upon publication.
PDF134September 26, 2025