Generazione di Video Plenottico

Abstract

I metodi di re-rendering video generativo controllati da telecamera, come ReCamMaster, hanno ottenuto progressi notevoli. Tuttavia, nonostante il loro successo in contesti single-view, questi lavori spesso faticano a mantenere la coerenza in scenari multi-view. Garantire la coerenza spazio-temporale nelle regioni allucinate rimane impegnativo a causa dell'intrinseca stocasticità dei modelli generativi. Per affrontare questo problema, introduciamo PlenopticDreamer, un framework che sincronizza le allucinazioni generative per mantenere una memoria spazio-temporale. L'idea centrale è addestrare un modello video-condizionato multi-input-single-output in maniera autoregressiva, coadiuvato da una strategia di recupero video guidata dalla telecamera che seleziona in modo adattivo video salienti dalle generazioni precedenti come input condizionali. Inoltre, il nostro addestramento incorpora uno scaling contestuale progressivo per migliorare la convergenza, il self-conditioning per aumentare la robustezza contro il degrado visivo a lungo raggio causato dall'accumulo di errori, e un meccanismo di condizionamento a video lunghi per supportare la generazione video estesa. Esperimenti estesi sui benchmark Basic e Agibot dimostrano che PlenopticDreamer raggiunge uno stato dell'arte nel re-rendering video, offrendo una sincronizzazione di vista superiore, visuali ad alta fedeltà, controllo accurato della telecamera e trasformazioni di vista diversificate (ad esempio, da terza persona a terza persona, e da vista della testa a vista del gripper nella manipolazione robotica). Pagina del progetto: https://research.nvidia.com/labs/dir/plenopticdreamer/

English

Camera-controlled generative video re-rendering methods, such as ReCamMaster, have achieved remarkable progress. However, despite their success in single-view setting, these works often struggle to maintain consistency across multi-view scenarios. Ensuring spatio-temporal coherence in hallucinated regions remains challenging due to the inherent stochasticity of generative models. To address it, we introduce PlenopticDreamer, a framework that synchronizes generative hallucinations to maintain spatio-temporal memory. The core idea is to train a multi-in-single-out video-conditioned model in an autoregressive manner, aided by a camera-guided video retrieval strategy that adaptively selects salient videos from previous generations as conditional inputs. In addition, Our training incorporates progressive context-scaling to improve convergence, self-conditioning to enhance robustness against long-range visual degradation caused by error accumulation, and a long-video conditioning mechanism to support extended video generation. Extensive experiments on the Basic and Agibot benchmarks demonstrate that PlenopticDreamer achieves state-of-the-art video re-rendering, delivering superior view synchronization, high-fidelity visuals, accurate camera control, and diverse view transformations (e.g., third-person to third-person, and head-view to gripper-view in robotic manipulation). Project page: https://research.nvidia.com/labs/dir/plenopticdreamer/

Generazione di Video Plenottico

Plenoptic Video Generation

Abstract

Support