ChatPaper.aiChatPaper

プレノプティック動画生成

Plenoptic Video Generation

January 8, 2026
著者: Xiao Fu, Shitao Tang, Min Shi, Xian Liu, Jinwei Gu, Ming-Yu Liu, Dahua Lin, Chen-Hsuan Lin
cs.AI

要旨

カメラ制御による生成的ビデオ再レンダリング手法(ReCamMasterなど)は目覚ましい進歩を遂げている。しかし、単一視点設定での成功にもかかわらず、これらの手法はマルチビューシナリオでの一貫性維持に課題を抱えることが多い。生成モデルに内在する確率性により、ホログラフィック領域における時空間的一貫性の確保は依然として困難である。この問題に対処するため、我々は時空間メモリを維持する生成的ホログラフィックの同期を実現するフレームワークPlenopticDreamerを提案する。中核となる考え方は、カメラ誘導型ビデオ検索戦略(過去の生成から salient なビデオを条件入力として適応的に選択)を補助として用い、マルチ入力単一出力のビデオ条件付きモデルを自己回帰的に学習することである。さらに、収束性向上のための段階的コンテキスト拡張、誤差蓄積による長距離視覚的劣化へのロバスト性向上のための自己条件付け、長尺ビデオ生成を支援する長尺ビデオ条件付けメカニズムを学習に組み込んでいる。BasicベンチマークとAgibotベンチマークにおける大規模な実験により、PlenopticDreamerが最先端のビデオ再レンダリングを実現し、優れた視点同期、高精細な画質、正確なカメラ制御、多様な視点変換(例:第三人称から第三人称へ、ロボット把持における頭部視点から把持器視点へ)を提供することを実証した。プロジェクトページ:https://research.nvidia.com/labs/dir/plenopticdreamer/
English
Camera-controlled generative video re-rendering methods, such as ReCamMaster, have achieved remarkable progress. However, despite their success in single-view setting, these works often struggle to maintain consistency across multi-view scenarios. Ensuring spatio-temporal coherence in hallucinated regions remains challenging due to the inherent stochasticity of generative models. To address it, we introduce PlenopticDreamer, a framework that synchronizes generative hallucinations to maintain spatio-temporal memory. The core idea is to train a multi-in-single-out video-conditioned model in an autoregressive manner, aided by a camera-guided video retrieval strategy that adaptively selects salient videos from previous generations as conditional inputs. In addition, Our training incorporates progressive context-scaling to improve convergence, self-conditioning to enhance robustness against long-range visual degradation caused by error accumulation, and a long-video conditioning mechanism to support extended video generation. Extensive experiments on the Basic and Agibot benchmarks demonstrate that PlenopticDreamer achieves state-of-the-art video re-rendering, delivering superior view synchronization, high-fidelity visuals, accurate camera control, and diverse view transformations (e.g., third-person to third-person, and head-view to gripper-view in robotic manipulation). Project page: https://research.nvidia.com/labs/dir/plenopticdreamer/
PDF60January 10, 2026