MVDiffusion: Обеспечение целостной генерации многовидовых изображений с использованием диффузии, учитывающей соответствия
MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion
July 3, 2023
Авторы: Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa
cs.AI
Аннотация
В данной статье представлен MVDiffusion — простой, но эффективный метод генерации многовидовых изображений для сценариев, где доступны пиксель-к-пиксельные соответствия, такие как перспективные срезы из панорам или многовидовые изображения с заданной геометрией (карты глубины и позиции). В отличие от предыдущих моделей, которые полагаются на итеративное искажение и восстановление изображений, MVDiffusion одновременно генерирует все изображения с глобальным учетом контекста, охватывая высокое разрешение и богатое содержание, эффективно устраняя накопление ошибок, характерное для предшествующих моделей. MVDiffusion специально включает механизм внимания, учитывающий соответствия, что позволяет эффективно взаимодействовать между видами. Этот механизм лежит в основе трех ключевых модулей: 1) модуль генерации, который создает изображения низкого разрешения, сохраняя глобальные соответствия, 2) модуль интерполяции, который увеличивает плотность пространственного покрытия между изображениями, и 3) модуль супер-разрешения, который повышает разрешение до высококачественных выходных данных. В контексте панорамных изображений MVDiffusion способен генерировать фотореалистичные изображения с разрешением до 1024×1024 пикселей. Для генерации многовидовых изображений с учетом геометрии MVDiffusion демонстрирует первый метод, способный создавать текстурированную карту сцены. Страница проекта доступна по адресу https://mvdiffusion.github.io.
English
This paper introduces MVDiffusion, a simple yet effective multi-view image
generation method for scenarios where pixel-to-pixel correspondences are
available, such as perspective crops from panorama or multi-view images given
geometry (depth maps and poses). Unlike prior models that rely on iterative
image warping and inpainting, MVDiffusion concurrently generates all images
with a global awareness, encompassing high resolution and rich content,
effectively addressing the error accumulation prevalent in preceding models.
MVDiffusion specifically incorporates a correspondence-aware attention
mechanism, enabling effective cross-view interaction. This mechanism underpins
three pivotal modules: 1) a generation module that produces low-resolution
images while maintaining global correspondence, 2) an interpolation module that
densifies spatial coverage between images, and 3) a super-resolution module
that upscales into high-resolution outputs. In terms of panoramic imagery,
MVDiffusion can generate high-resolution photorealistic images up to
1024times1024 pixels. For geometry-conditioned multi-view image generation,
MVDiffusion demonstrates the first method capable of generating a textured map
of a scene mesh. The project page is at https://mvdiffusion.github.io.