FlexWorld: Постепенное расширение 3D-сцен для синтеза гибкого обзора
FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis
March 17, 2025
Авторы: Luxi Chen, Zihan Zhou, Min Zhao, Yikai Wang, Ge Zhang, Wenhao Huang, Hao Sun, Ji-Rong Wen, Chongxuan Li
cs.AI
Аннотация
Создание трехмерных сцен с гибким обзором, включая вращение на 360 градусов и масштабирование, из одиночных изображений является сложной задачей из-за недостатка 3D-данных. Для решения этой проблемы мы представляем FlexWorld — новую структуру, состоящую из двух ключевых компонентов: (1) мощной модели диффузии "видео-в-видео" (V2V) для генерации высококачественных изображений новых ракурсов из неполных входных данных, полученных из грубой сцены, и (2) процесса прогрессивного расширения для построения полной 3D-сцены. В частности, используя предобученную модель для работы с видео и точные обучающие пары с оценкой глубины, наша модель V2V способна генерировать новые ракурсы при значительных изменениях положения камеры. На основе этого FlexWorld постепенно создает новое 3D-содержание и интегрирует его в глобальную сцену через геометрически осознанное слияние сцен. Многочисленные эксперименты демонстрируют эффективность FlexWorld в генерации высококачественных видео с новыми ракурсами и трехмерных сцен с гибким обзором из одиночных изображений, достигая превосходного визуального качества по нескольким популярным метрикам и наборам данных по сравнению с существующими передовыми методами. Качественно мы подчеркиваем, что FlexWorld способен создавать высокоточные сцены с гибким обзором, такими как вращение на 360 градусов и масштабирование. Страница проекта: https://ml-gsai.github.io/FlexWorld.
English
Generating flexible-view 3D scenes, including 360{\deg} rotation and zooming,
from single images is challenging due to a lack of 3D data. To this end, we
introduce FlexWorld, a novel framework consisting of two key components: (1) a
strong video-to-video (V2V) diffusion model to generate high-quality novel view
images from incomplete input rendered from a coarse scene, and (2) a
progressive expansion process to construct a complete 3D scene. In particular,
leveraging an advanced pre-trained video model and accurate depth-estimated
training pairs, our V2V model can generate novel views under large camera pose
variations. Building upon it, FlexWorld progressively generates new 3D content
and integrates it into the global scene through geometry-aware scene fusion.
Extensive experiments demonstrate the effectiveness of FlexWorld in generating
high-quality novel view videos and flexible-view 3D scenes from single images,
achieving superior visual quality under multiple popular metrics and datasets
compared to existing state-of-the-art methods. Qualitatively, we highlight that
FlexWorld can generate high-fidelity scenes with flexible views like 360{\deg}
rotations and zooming. Project page: https://ml-gsai.github.io/FlexWorld.Summary
AI-Generated Summary