Plenoptische Videogenerierung
Plenoptic Video Generation
January 8, 2026
papers.authors: Xiao Fu, Shitao Tang, Min Shi, Xian Liu, Jinwei Gu, Ming-Yu Liu, Dahua Lin, Chen-Hsuan Lin
cs.AI
papers.abstract
Kameragesteuerte generative Video-Neurendering-Methoden wie ReCamMaster haben bemerkenswerte Fortschritte erzielt. Trotz ihrer Erfolge in Einzelansicht-Szenarien haben diese Arbeiten jedoch oft Schwierigkeiten, Konsistenz über Multi-View-Szenarien hinweg aufrechtzuerhalten. Die Gewährleistung von raumzeitlicher Kohärenz in halluzinierten Bereichen bleibt aufgrund der inhärenten Stochastik generativer Modelle eine Herausforderung. Um dieses Problem zu adressieren, stellen wir PlenopticDreamer vor, ein Framework, das generative Halluzinationen synchronisiert, um ein raumzeitliches Gedächtnis zu erhalten. Der Kernansatz besteht darin, ein Multi-In-Single-Out, videokonditioniertes Modell auf autoregressive Weise zu trainieren, unterstützt durch eine kamerageführte Video-Retrieval-Strategie, die adaptiv saliente Videos aus vorherigen Generationen als konditionelle Eingaben auswählt. Zusätzlich integriert unser Training progressives Context-Scaling zur Verbesserung der Konvergenz, Self-Conditioning zur Erhöhung der Robustheit gegenüber langreichweitiger visueller Verschlechterung durch Fehlerakkumulation und einen Long-Video-Conditioning-Mechanismus zur Unterstützung erweiterter Videogenerierung. Umfangreiche Experimente auf den Benchmarks Basic und Agibot demonstrieren, dass PlenopticDreamer state-of-the-art Video-Neurendering erreicht, mit überlegener Viewsynchronisation, hochwertiger Visualqualität, präziser Kamerasteuerung und diversen View-Transformationen (z.B. Third-Person zu Third-Person und Head-View zu Gripper-View in der Robotermanipulation). Projektseite: https://research.nvidia.com/labs/dir/plenopticdreamer/
English
Camera-controlled generative video re-rendering methods, such as ReCamMaster, have achieved remarkable progress. However, despite their success in single-view setting, these works often struggle to maintain consistency across multi-view scenarios. Ensuring spatio-temporal coherence in hallucinated regions remains challenging due to the inherent stochasticity of generative models. To address it, we introduce PlenopticDreamer, a framework that synchronizes generative hallucinations to maintain spatio-temporal memory. The core idea is to train a multi-in-single-out video-conditioned model in an autoregressive manner, aided by a camera-guided video retrieval strategy that adaptively selects salient videos from previous generations as conditional inputs. In addition, Our training incorporates progressive context-scaling to improve convergence, self-conditioning to enhance robustness against long-range visual degradation caused by error accumulation, and a long-video conditioning mechanism to support extended video generation. Extensive experiments on the Basic and Agibot benchmarks demonstrate that PlenopticDreamer achieves state-of-the-art video re-rendering, delivering superior view synchronization, high-fidelity visuals, accurate camera control, and diverse view transformations (e.g., third-person to third-person, and head-view to gripper-view in robotic manipulation). Project page: https://research.nvidia.com/labs/dir/plenopticdreamer/