Free4D: Генерация 4D-сцен без настройки с пространственно-временной согласованностью
Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency
March 26, 2025
Авторы: Tianqi Liu, Zihao Huang, Zhaoxi Chen, Guangcong Wang, Shoukang Hu, Liao Shen, Huiqiang Sun, Zhiguo Cao, Wei Li, Ziwei Liu
cs.AI
Аннотация
Мы представляем Free4D — новую настройку-свободную структуру для генерации 4D-сцен из одного изображения. Существующие методы либо сосредоточены на генерации на уровне объектов, что делает генерацию на уровне сцен невозможной, либо полагаются на крупномасштабные наборы данных многовидовых видео для дорогостоящего обучения, обладая ограниченной способностью к обобщению из-за недостатка данных 4D-сцен. В отличие от них, наше ключевое понимание заключается в дистилляции предварительно обученных базовых моделей для согласованного представления 4D-сцен, что предлагает такие преимущества, как эффективность и универсальность. 1) Для достижения этого мы сначала анимируем входное изображение с использованием моделей диффузии "изображение-в-видео", за которыми следует инициализация 4D-геометрической структуры. 2) Чтобы превратить эту грубую структуру в пространственно-временные согласованные многовидовые видео, мы разрабатываем адаптивный механизм управления с точечной стратегией шумоподавления для пространственной согласованности и новой стратегией замены латентных переменных для временной связности. 3) Чтобы поднять эти сгенерированные наблюдения до согласованного 4D-представления, мы предлагаем модуляционное уточнение для смягчения несогласованностей, полностью используя сгенерированную информацию. Полученное 4D-представление позволяет осуществлять рендеринг в реальном времени с возможностью управления, что знаменует значительный прогресс в генерации 4D-сцен на основе одного изображения.
English
We present Free4D, a novel tuning-free framework for 4D scene generation from
a single image. Existing methods either focus on object-level generation,
making scene-level generation infeasible, or rely on large-scale multi-view
video datasets for expensive training, with limited generalization ability due
to the scarcity of 4D scene data. In contrast, our key insight is to distill
pre-trained foundation models for consistent 4D scene representation, which
offers promising advantages such as efficiency and generalizability. 1) To
achieve this, we first animate the input image using image-to-video diffusion
models followed by 4D geometric structure initialization. 2) To turn this
coarse structure into spatial-temporal consistent multiview videos, we design
an adaptive guidance mechanism with a point-guided denoising strategy for
spatial consistency and a novel latent replacement strategy for temporal
coherence. 3) To lift these generated observations into consistent 4D
representation, we propose a modulation-based refinement to mitigate
inconsistencies while fully leveraging the generated information. The resulting
4D representation enables real-time, controllable rendering, marking a
significant advancement in single-image-based 4D scene generation.Summary
AI-Generated Summary