Plenoptische Videogeneratie

Samenvatting

Camera-gestuurde generatieve video-herweergavemethoden, zoals ReCamMaster, hebben opmerkelijke vooruitgang geboekt. Desondanks worstelen deze methoden, ondanks hun succes in een enkele camerastand, vaak met het behouden van consistentie in multi-viewscenario's. Het waarborgen van ruimtelijk-temporele coherentie in gegenereerde regio's blijft een uitdaging door de inherente stochasticiteit van generatieve modellen. Om dit aan te pakken, introduceren wij PlenopticDreamer, een raamwerk dat generatieve hallucinaties synchroniseert om een ruimtelijk-tijdelijk geheugen te behouden. De kernidee is het trainen van een multi-in-single-out video-geconditioneerd model op een autoregressieve manier, ondersteund door een camera-gestuurde video-retrievalstrategie die adaptief salientie video's uit vorige generaties selecteert als conditionele invoer. Daarnaast omvat onze training progressieve contextschaling om convergentie te verbeteren, zelf-conditionering om robuustheid tegen langetermijnvisuele degradatie door foutaccumulatie te vergroten, en een lange-video-conditioneringsmechanisme om uitgebreide videogeneratie te ondersteunen. Uitgebreide experimenten op de Basic- en Agibot-benchmarks tonen aan dat PlenopticDreamer state-of-the-art video-herweergave bereikt, met superieure viewsynchronisatie, hoogwaardige beeldkwaliteit, accurate camerabesturing en diverse viewtransformaties (bijv. derde-persoons naar derde-persoons, en hoofdview naar grijperview in robotmanipulatie). Projectpagina: https://research.nvidia.com/labs/dir/plenopticdreamer/

English

Camera-controlled generative video re-rendering methods, such as ReCamMaster, have achieved remarkable progress. However, despite their success in single-view setting, these works often struggle to maintain consistency across multi-view scenarios. Ensuring spatio-temporal coherence in hallucinated regions remains challenging due to the inherent stochasticity of generative models. To address it, we introduce PlenopticDreamer, a framework that synchronizes generative hallucinations to maintain spatio-temporal memory. The core idea is to train a multi-in-single-out video-conditioned model in an autoregressive manner, aided by a camera-guided video retrieval strategy that adaptively selects salient videos from previous generations as conditional inputs. In addition, Our training incorporates progressive context-scaling to improve convergence, self-conditioning to enhance robustness against long-range visual degradation caused by error accumulation, and a long-video conditioning mechanism to support extended video generation. Extensive experiments on the Basic and Agibot benchmarks demonstrate that PlenopticDreamer achieves state-of-the-art video re-rendering, delivering superior view synchronization, high-fidelity visuals, accurate camera control, and diverse view transformations (e.g., third-person to third-person, and head-view to gripper-view in robotic manipulation). Project page: https://research.nvidia.com/labs/dir/plenopticdreamer/

Plenoptische Videogeneratie

Plenoptic Video Generation

Samenvatting

Support