VIST3A: Генерация 3D-моделей из текста путем объединения сети реконструкции по множеству видов с генератором видео
VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator
October 15, 2025
Авторы: Hyojun Go, Dominik Narnhofer, Goutam Bhat, Prune Truong, Federico Tombari, Konrad Schindler
cs.AI
Аннотация
Быстрый прогресс крупных предобученных моделей для генерации визуального контента и 3D-реконструкции открывает новые возможности для генерации 3D-сцен из текста. Интуитивно можно предположить, что мощный генератор 3D-сцен может быть создан путем объединения возможностей современной латентной модели для генерации видео из текста в качестве "генератора" и геометрических способностей недавно разработанной (прямопроходной) системы 3D-реконструкции в качестве "декодера". Мы представляем VIST3A — общий фреймворк, который реализует этот подход, решая две основные задачи. Во-первых, два компонента должны быть соединены таким образом, чтобы сохранить богатые знания, закодированные в их весах. Мы возвращаемся к технике "сшивания моделей", то есть определяем слой в 3D-декодере, который лучше всего соответствует латентному представлению, создаваемому генератором видео из текста, и соединяем две части. Эта операция требует лишь небольшого набора данных и не нуждается в метках. Во-вторых, генератор видео из текста должен быть согласован с соединенным 3D-декодером, чтобы гарантировать, что генерируемые латентные представления могут быть декодированы в согласованную и визуально убедительную 3D-геометрию сцены. Для этого мы адаптируем метод тонкой настройки с прямым вознаграждением, популярный подход для согласования с человеческими предпочтениями. Мы оцениваем предложенный подход VIST3A с использованием различных генераторов видео и моделей 3D-реконструкции. Все протестированные комбинации значительно превосходят предыдущие модели для генерации 3D из текста, которые выводят гауссовы сплаты. Более того, выбирая подходящую базовую 3D-модель, VIST3A также позволяет генерировать высококачественные карты точек из текста.
English
The rapid progress of large, pretrained models for both visual content
generation and 3D reconstruction opens up new possibilities for text-to-3D
generation. Intuitively, one could obtain a formidable 3D scene generator if
one were able to combine the power of a modern latent text-to-video model as
"generator" with the geometric abilities of a recent (feedforward) 3D
reconstruction system as "decoder". We introduce VIST3A, a general framework
that does just that, addressing two main challenges. First, the two components
must be joined in a way that preserves the rich knowledge encoded in their
weights. We revisit model stitching, i.e., we identify the layer in the 3D
decoder that best matches the latent representation produced by the
text-to-video generator and stitch the two parts together. That operation
requires only a small dataset and no labels. Second, the text-to-video
generator must be aligned with the stitched 3D decoder, to ensure that the
generated latents are decodable into consistent, perceptually convincing 3D
scene geometry. To that end, we adapt direct reward finetuning, a popular
technique for human preference alignment. We evaluate the proposed VIST3A
approach with different video generators and 3D reconstruction models. All
tested pairings markedly improve over prior text-to-3D models that output
Gaussian splats. Moreover, by choosing a suitable 3D base model, VIST3A also
enables high-quality text-to-pointmap generation.