Вставка объектов с фотореалистичным эффектом с помощью обратного рендеринга с диффузией.
Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering
August 19, 2024
Авторы: Ruofan Liang, Zan Gojcic, Merlin Nimier-David, David Acuna, Nandita Vijaykumar, Sanja Fidler, Zian Wang
cs.AI
Аннотация
Для корректной вставки виртуальных объектов на изображения реальных сцен необходимо глубокое понимание освещения сцены, ее геометрии и материалов, а также процесса формирования изображения. В то время как недавние модели диффузии большого масштаба показали сильные генеративные и заполнительные возможности, мы обнаружили, что текущие модели недостаточно "понимают" сцену, изображенную на одном фото, чтобы генерировать последовательные эффекты освещения (тени, яркие отражения и т. д.), сохраняя при этом идентичность и детали вставленного объекта. Мы предлагаем использовать персонализированную модель диффузии большого масштаба в качестве руководства к физически обоснованному процессу обратного воспроизведения. Наш метод восстанавливает параметры освещения сцены и тонирования, позволяя фотореалистично компоновать произвольные виртуальные объекты на одиночных кадрах или видео внутренних или внешних сцен. Наша физически обоснованная конвейерная система также обеспечивает автоматическое улучшение материалов и тонирования.
English
The correct insertion of virtual objects in images of real-world scenes
requires a deep understanding of the scene's lighting, geometry and materials,
as well as the image formation process. While recent large-scale diffusion
models have shown strong generative and inpainting capabilities, we find that
current models do not sufficiently "understand" the scene shown in a single
picture to generate consistent lighting effects (shadows, bright reflections,
etc.) while preserving the identity and details of the composited object. We
propose using a personalized large diffusion model as guidance to a physically
based inverse rendering process. Our method recovers scene lighting and
tone-mapping parameters, allowing the photorealistic composition of arbitrary
virtual objects in single frames or videos of indoor or outdoor scenes. Our
physically based pipeline further enables automatic materials and tone-mapping
refinement.Summary
AI-Generated Summary