ChatPaper.aiChatPaper

Generación de Video Plenóptico

Plenoptic Video Generation

January 8, 2026
Autores: Xiao Fu, Shitao Tang, Min Shi, Xian Liu, Jinwei Gu, Ming-Yu Liu, Dahua Lin, Chen-Hsuan Lin
cs.AI

Resumen

Los métodos de re-renderizado de vídeo generativo controlados por cámara, como ReCamMaster, han logrado avances notables. Sin embargo, a pesar de su éxito en entornos de vista única, estos trabajos suelen tener dificultades para mantener la coherencia en escenarios multivista. Garantizar la coherencia espacio-temporal en las regiones alucinadas sigue siendo un desafío debido a la estocasticidad inherente de los modelos generativos. Para abordarlo, presentamos PlenopticDreamer, un framework que sincroniza las alucinaciones generativas para mantener una memoria espacio-temporal. La idea central es entrenar un modelo de vídeo condicionado multi-entrada-single-salida de manera autoregresiva, asistido por una estrategia de recuperación de vídeo guiada por cámara que selecciona adaptativamente vídeos salientes de generaciones previas como entradas condicionales. Adicionalmente, nuestro entrenamiento incorpora escalado progresivo de contexto para mejorar la convergencia, auto-condicionamiento para aumentar la robustez frente a la degradación visual a largo plazo causada por la acumulación de errores, y un mecanismo de condicionamiento de vídeo largo para soportar la generación de vídeos extendidos. Experimentos exhaustivos en los benchmarks Basic y Agibot demuestran que PlenopticDreamer logra un re-renderizado de vídeo estado del arte, ofreciendo una sincronización de vistas superior, visuales de alta fidelidad, control preciso de cámara y transformaciones de vista diversas (por ejemplo, de tercera persona a tercera persona, y de vista de cabeza a vista de pinza en manipulación robótica). Página del proyecto: https://research.nvidia.com/labs/dir/plenopticdreamer/
English
Camera-controlled generative video re-rendering methods, such as ReCamMaster, have achieved remarkable progress. However, despite their success in single-view setting, these works often struggle to maintain consistency across multi-view scenarios. Ensuring spatio-temporal coherence in hallucinated regions remains challenging due to the inherent stochasticity of generative models. To address it, we introduce PlenopticDreamer, a framework that synchronizes generative hallucinations to maintain spatio-temporal memory. The core idea is to train a multi-in-single-out video-conditioned model in an autoregressive manner, aided by a camera-guided video retrieval strategy that adaptively selects salient videos from previous generations as conditional inputs. In addition, Our training incorporates progressive context-scaling to improve convergence, self-conditioning to enhance robustness against long-range visual degradation caused by error accumulation, and a long-video conditioning mechanism to support extended video generation. Extensive experiments on the Basic and Agibot benchmarks demonstrate that PlenopticDreamer achieves state-of-the-art video re-rendering, delivering superior view synchronization, high-fidelity visuals, accurate camera control, and diverse view transformations (e.g., third-person to third-person, and head-view to gripper-view in robotic manipulation). Project page: https://research.nvidia.com/labs/dir/plenopticdreamer/
PDF60January 10, 2026