ChatPaper.aiChatPaper

Génération de vidéos plénoptiques

Plenoptic Video Generation

January 8, 2026
papers.authors: Xiao Fu, Shitao Tang, Min Shi, Xian Liu, Jinwei Gu, Ming-Yu Liu, Dahua Lin, Chen-Hsuan Lin
cs.AI

papers.abstract

Les méthodes de re-rendu vidéo génératif contrôlé par caméra, telles que ReCamMaster, ont réalisé des progrès remarquables. Cependant, malgré leur succès en contexte mono-vue, ces approches peinent souvent à maintenir la cohérence dans des scénarios multi-vues. Assurer la cohérence spatio-temporelle dans les régions hallucinées reste difficile en raison de la stochasticité inhérente aux modèles génératifs. Pour résoudre ce problème, nous présentons PlenopticDreamer, un framework qui synchronise les hallucinations génératives pour maintenir une mémoire spatio-temporelle. L'idée centrale est d'entraîner un modèle vidéo multi-entrées/une-sortie de manière autorégressive, assisté par une stratégie de récupération vidéo guidée par caméra qui sélectionne adaptativement des vidéos saillantes des générations précédentes comme entrées conditionnelles. De plus, notre entraînement intègre une mise à l'échelle contextuelle progressive pour améliorer la convergence, un auto-conditionnement pour renforcer la robustesse contre la dégradation visuelle à long terme causée par l'accumulation d'erreurs, et un mécanisme de conditionnement long-vidéo pour supporter la génération vidéo étendue. Des expériences approfondies sur les benchmarks Basic et Agibot démontrent que PlenopticDreamer atteint l'état de l'art en re-rendu vidéo, offrant une synchronisation des vues supérieure, des visuels haute fidélité, un contrôle précis de la caméra et des transformations de vue variées (par exemple, troisième personne à troisième personne, et vue tête à vue pince en manipulation robotique). Page du projet : https://research.nvidia.com/labs/dir/plenopticdreamer/
English
Camera-controlled generative video re-rendering methods, such as ReCamMaster, have achieved remarkable progress. However, despite their success in single-view setting, these works often struggle to maintain consistency across multi-view scenarios. Ensuring spatio-temporal coherence in hallucinated regions remains challenging due to the inherent stochasticity of generative models. To address it, we introduce PlenopticDreamer, a framework that synchronizes generative hallucinations to maintain spatio-temporal memory. The core idea is to train a multi-in-single-out video-conditioned model in an autoregressive manner, aided by a camera-guided video retrieval strategy that adaptively selects salient videos from previous generations as conditional inputs. In addition, Our training incorporates progressive context-scaling to improve convergence, self-conditioning to enhance robustness against long-range visual degradation caused by error accumulation, and a long-video conditioning mechanism to support extended video generation. Extensive experiments on the Basic and Agibot benchmarks demonstrate that PlenopticDreamer achieves state-of-the-art video re-rendering, delivering superior view synchronization, high-fidelity visuals, accurate camera control, and diverse view transformations (e.g., third-person to third-person, and head-view to gripper-view in robotic manipulation). Project page: https://research.nvidia.com/labs/dir/plenopticdreamer/
PDF60January 10, 2026