ChatPaper.aiChatPaper

플렉티컬 비디오 생성

Plenoptic Video Generation

January 8, 2026
저자: Xiao Fu, Shitao Tang, Min Shi, Xian Liu, Jinwei Gu, Ming-Yu Liu, Dahua Lin, Chen-Hsuan Lin
cs.AI

초록

ReCamMaster와 같은 카메라 제어 생성 비디오 재렌더링 방법은 놀라운 발전을 이루었습니다. 그러나 단일 뷰 설정에서는 성공적이었지만, 이러한 연구들은 다중 뷰 시나리오에서 일관성을 유지하는 데 어려움을 겪는 경우가 많습니다. 생성 모델의 내재적 확률성으로 인해 합성된 영역에서 시공간적 일관성을 보장하는 것은 여전히 어려운 과제입니다. 이를 해결하기 위해 우리는 생성적 합성(hallucination)을 동기화하여 시공간적 메모리를 유지하는 PlenopticDreamer 프레임워크를 소개합니다. 핵심 아이디어는 카메라 가이드 비디오 검색 전략의 도움으로 오토리그레시브(auto-regressive) 방식으로 다중 입력-단일 출력 비디오 조건부 모델을 훈련하는 것입니다. 이 전략은 이전 생성 단계에서 중요한 비디오를 조건부 입력으로 적응적으로 선택합니다. 또한 우리의 훈련 방식에는 수렴성을 개선하기 위한 점진적 컨텍스트 확장(progressive context-scaling), 오류 누적으로 인한 장기간의 시각적 저하에 대한 견고성을 향상시키는 자기 조건화(self-conditioning), 그리고 장편 비디오 생성을 지원하기 위한 장편 비디오 조건화 메커니즘이 포함됩니다. Basic 및 Agibot 벤치마크에 대한 광범위한 실험을 통해 PlenopticDreamer가 최첨단 비디오 재렌더링 성능을 달성하며, 우수한 뷰 동기화, 높은 정확도의 시각적 결과, 정확한 카메라 제어, 그리고 다양한 뷰 변환(예: 3인칭에서 3인칭으로, 로봇 조작에서 헤드 뷰에서 그리퍼 뷰로)을 제공함을 입증했습니다. 프로젝트 페이지: https://research.nvidia.com/labs/dir/plenopticdreamer/
English
Camera-controlled generative video re-rendering methods, such as ReCamMaster, have achieved remarkable progress. However, despite their success in single-view setting, these works often struggle to maintain consistency across multi-view scenarios. Ensuring spatio-temporal coherence in hallucinated regions remains challenging due to the inherent stochasticity of generative models. To address it, we introduce PlenopticDreamer, a framework that synchronizes generative hallucinations to maintain spatio-temporal memory. The core idea is to train a multi-in-single-out video-conditioned model in an autoregressive manner, aided by a camera-guided video retrieval strategy that adaptively selects salient videos from previous generations as conditional inputs. In addition, Our training incorporates progressive context-scaling to improve convergence, self-conditioning to enhance robustness against long-range visual degradation caused by error accumulation, and a long-video conditioning mechanism to support extended video generation. Extensive experiments on the Basic and Agibot benchmarks demonstrate that PlenopticDreamer achieves state-of-the-art video re-rendering, delivering superior view synchronization, high-fidelity visuals, accurate camera control, and diverse view transformations (e.g., third-person to third-person, and head-view to gripper-view in robotic manipulation). Project page: https://research.nvidia.com/labs/dir/plenopticdreamer/
PDF60January 10, 2026