VideoRFSplat: Прямое создание сцен на основе текста в 3D Gaussian Splatting с гибкой позой и совместным моделированием нескольких видов
VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling
March 20, 2025
Авторы: Hyojun Go, Byeongjun Park, Hyelin Nam, Byung-Hoon Kim, Hyungjin Chung, Changick Kim
cs.AI
Аннотация
Мы представляем VideoRFSplat — модель прямого преобразования текста в 3D, которая использует модель генерации видео для создания реалистичного 3D Gaussian Splatting (3DGS) для неограниченных сцен реального мира. Для генерации разнообразных позиций камеры и неограниченного пространственного охвата сцен реального мира, обеспечивая при этом обобщение для произвольных текстовых запросов, предыдущие методы дообучают 2D генеративные модели для совместного моделирования позиций камеры и многовидовых изображений. Однако эти методы сталкиваются с нестабильностью при расширении 2D генеративных моделей для совместного моделирования из-за разрыва модальностей, что требует дополнительных моделей для стабилизации обучения и вывода. В данной работе мы предлагаем архитектуру и стратегию сэмплинга для совместного моделирования многовидовых изображений и позиций камеры при дообучении модели генерации видео. Наша ключевая идея заключается в двухпоточной архитектуре, которая подключает специализированную модель генерации позиций к предобученной модели генерации видео через коммуникационные блоки, генерируя многовидовые изображения и позиции камеры через отдельные потоки. Такой дизайн снижает взаимное влияние модальностей позиций и изображений. Кроме того, мы предлагаем асинхронную стратегию сэмплинга, которая ускоряет удаление шума для позиций камеры по сравнению с многовидовыми изображениями, позволяя быстро очищенным позициям управлять генерацией многовидовых изображений, уменьшая взаимную неоднозначность и повышая кросс-модальную согласованность. Обучаясь на нескольких крупномасштабных наборах данных реального мира (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat превосходит существующие методы прямого преобразования текста в 3D, которые сильно зависят от последующего уточнения через score distillation sampling, достигая превосходных результатов без такого уточнения.
English
We propose VideoRFSplat, a direct text-to-3D model leveraging a video
generation model to generate realistic 3D Gaussian Splatting (3DGS) for
unbounded real-world scenes. To generate diverse camera poses and unbounded
spatial extent of real-world scenes, while ensuring generalization to arbitrary
text prompts, previous methods fine-tune 2D generative models to jointly model
camera poses and multi-view images. However, these methods suffer from
instability when extending 2D generative models to joint modeling due to the
modality gap, which necessitates additional models to stabilize training and
inference. In this work, we propose an architecture and a sampling strategy to
jointly model multi-view images and camera poses when fine-tuning a video
generation model. Our core idea is a dual-stream architecture that attaches a
dedicated pose generation model alongside a pre-trained video generation model
via communication blocks, generating multi-view images and camera poses through
separate streams. This design reduces interference between the pose and image
modalities. Additionally, we propose an asynchronous sampling strategy that
denoises camera poses faster than multi-view images, allowing rapidly denoised
poses to condition multi-view generation, reducing mutual ambiguity and
enhancing cross-modal consistency. Trained on multiple large-scale real-world
datasets (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat outperforms
existing text-to-3D direct generation methods that heavily depend on post-hoc
refinement via score distillation sampling, achieving superior results without
such refinement.Summary
AI-Generated Summary