AdaViewPlanner: Адаптация моделей диффузии видео для планирования точек обзора в 4D-сценах
AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes
October 12, 2025
Авторы: Yu Li, Menghan Xia, Gongye Liu, Jianhong Bai, Xintao Wang, Conglang Zhang, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Yujiu Yang
cs.AI
Аннотация
Последние модели преобразования текста в видео (Text-to-Video, T2V) продемонстрировали мощные возможности в визуальной симуляции геометрии реального мира и физических законов, что указывает на их потенциал в качестве неявных моделей мира. Вдохновленные этим, мы исследуем возможность использования априорных знаний о генерации видео для планирования точек обзора на основе заданных 4D-сцен, поскольку видео внутренне сопровождают динамические сцены с естественными точками обзора. Для этого мы предлагаем двухэтапную парадигму адаптации предварительно обученных моделей T2V для предсказания точек обзора в совместимом формате. Сначала мы внедряем представление 4D-сцены в предварительно обученную модель T2V через адаптивную ветвь обучения, где 4D-сцена не зависит от точки обзора, а сгенерированное видео визуально встраивает точки обзора. Затем мы формулируем извлечение точки обзора как процесс денизинга внешних параметров камеры, управляемый гибридными условиями. В частности, на предварительно обученную модель T2V добавляется ветвь диффузии внешних параметров камеры, которая принимает сгенерированное видео и 4D-сцену в качестве входных данных. Экспериментальные результаты показывают превосходство нашего предложенного метода над существующими конкурентами, а исследования с исключением компонентов подтверждают эффективность наших ключевых технических решений. В некоторой степени эта работа доказывает потенциал моделей генерации видео для взаимодействия с 4D-сценами в реальном мире.
English
Recent Text-to-Video (T2V) models have demonstrated powerful capability in
visual simulation of real-world geometry and physical laws, indicating its
potential as implicit world models. Inspired by this, we explore the
feasibility of leveraging the video generation prior for viewpoint planning
from given 4D scenes, since videos internally accompany dynamic scenes with
natural viewpoints. To this end, we propose a two-stage paradigm to adapt
pre-trained T2V models for viewpoint prediction, in a compatible manner. First,
we inject the 4D scene representation into the pre-trained T2V model via an
adaptive learning branch, where the 4D scene is viewpoint-agnostic and the
conditional generated video embeds the viewpoints visually. Then, we formulate
viewpoint extraction as a hybrid-condition guided camera extrinsic denoising
process. Specifically, a camera extrinsic diffusion branch is further
introduced onto the pre-trained T2V model, by taking the generated video and 4D
scene as input. Experimental results show the superiority of our proposed
method over existing competitors, and ablation studies validate the
effectiveness of our key technical designs. To some extent, this work proves
the potential of video generation models toward 4D interaction in real world.