ChatPaper.aiChatPaper

AdaViewPlanner: 4D 장면에서의 시점 계획을 위한 비디오 확산 모델 적응

AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes

October 12, 2025
저자: Yu Li, Menghan Xia, Gongye Liu, Jianhong Bai, Xintao Wang, Conglang Zhang, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Yujiu Yang
cs.AI

초록

최근 텍스트-투-비디오(T2V) 모델들은 현실 세계의 기하학적 구조와 물리 법칙을 시뮬레이션하는 강력한 능력을 보여주며, 이들이 암묵적 세계 모델로서의 잠재력을 시사하고 있습니다. 이에 영감을 받아, 우리는 동적 장면과 자연스러운 시점을 내부적으로 포함하는 비디오의 특성을 활용하여 주어진 4D 장면에서의 시점 계획(viewpoint planning)을 위한 비디오 생성 사전 지식(video generation prior)의 활용 가능성을 탐구합니다. 이를 위해, 우리는 사전 학습된 T2V 모델을 시점 예측에 적응시키기 위한 두 단계의 패러다임을 제안합니다. 첫째, 우리는 4D 장면 표현을 사전 학습된 T2V 모델에 적응형 학습 분기를 통해 주입합니다. 여기서 4D 장면은 시점에 독립적이며, 조건부로 생성된 비디오는 시점을 시각적으로 내포합니다. 둘째, 우리는 시점 추출을 하이브리드 조건 기반의 카메라 외부 매개변수(extrinsic) 디노이징(denoising) 과정으로 공식화합니다. 구체적으로, 생성된 비디오와 4D 장면을 입력으로 받는 카메라 외부 매개변수 디퓨전(diffusion) 분기를 사전 학습된 T2V 모델에 추가로 도입합니다. 실험 결과는 우리가 제안한 방법이 기존 경쟁자들보다 우수함을 보여주며, 주요 기술 설계의 효과성을 검증하는 절제 연구(ablation study)를 통해 그 유효성을 입증합니다. 이 연구는 어느 정도 비디오 생성 모델들이 현실 세계의 4D 상호작용을 위한 잠재력을 가지고 있음을 증명합니다.
English
Recent Text-to-Video (T2V) models have demonstrated powerful capability in visual simulation of real-world geometry and physical laws, indicating its potential as implicit world models. Inspired by this, we explore the feasibility of leveraging the video generation prior for viewpoint planning from given 4D scenes, since videos internally accompany dynamic scenes with natural viewpoints. To this end, we propose a two-stage paradigm to adapt pre-trained T2V models for viewpoint prediction, in a compatible manner. First, we inject the 4D scene representation into the pre-trained T2V model via an adaptive learning branch, where the 4D scene is viewpoint-agnostic and the conditional generated video embeds the viewpoints visually. Then, we formulate viewpoint extraction as a hybrid-condition guided camera extrinsic denoising process. Specifically, a camera extrinsic diffusion branch is further introduced onto the pre-trained T2V model, by taking the generated video and 4D scene as input. Experimental results show the superiority of our proposed method over existing competitors, and ablation studies validate the effectiveness of our key technical designs. To some extent, this work proves the potential of video generation models toward 4D interaction in real world.
PDF162October 14, 2025