Geração de Vídeo Plenóptico

Resumo

Métodos de re-renderização generativa de vídeo controlados por câmera, como o ReCamMaster, alcançaram progressos notáveis. No entanto, apesar do sucesso em ambientes de visão única, essas abordagens frequentemente enfrentam dificuldades para manter a consistência em cenários multivisuais. Garantir a coerência espaço-temporal em regiões alucinadas permanece um desafio devido à estocasticidade inerente dos modelos generativos. Para resolver isso, introduzimos o PlenopticDreamer, uma estrutura que sincroniza alucinações generativas para manter uma memória espaço-temporal. A ideia central é treinar um modelo de vídeo com múltiplas entradas e única saída de maneira autorregressiva, auxiliado por uma estratégia de recuperação de vídeo guiada por câmera que seleciona adaptativamente vídeos salientes de gerações anteriores como entradas condicionais. Adicionalmente, nosso treinamento incorpora dimensionamento progressivo de contexto para melhorar a convergência, autocondicionamento para aumentar a robustez contra degradação visual de longo prazo causada por acumulação de erros, e um mecanismo de condicionamento de vídeos longos para suportar geração estendida de vídeo. Experimentos extensivos nos benchmarks Basic e Agibot demonstram que o PlenopticDreamer alcança state-of-the-art em re-renderização de vídeo, oferecendo sincronização de vista superior, visuais de alta fidelidade, controle preciso de câmera e transformações de vista diversificadas (por exemplo, de terceira pessoa para terceira pessoa, e de vista de cabeça para vista de garra na manipulação robótica). Página do projeto: https://research.nvidia.com/labs/dir/plenopticdreamer/

English

Camera-controlled generative video re-rendering methods, such as ReCamMaster, have achieved remarkable progress. However, despite their success in single-view setting, these works often struggle to maintain consistency across multi-view scenarios. Ensuring spatio-temporal coherence in hallucinated regions remains challenging due to the inherent stochasticity of generative models. To address it, we introduce PlenopticDreamer, a framework that synchronizes generative hallucinations to maintain spatio-temporal memory. The core idea is to train a multi-in-single-out video-conditioned model in an autoregressive manner, aided by a camera-guided video retrieval strategy that adaptively selects salient videos from previous generations as conditional inputs. In addition, Our training incorporates progressive context-scaling to improve convergence, self-conditioning to enhance robustness against long-range visual degradation caused by error accumulation, and a long-video conditioning mechanism to support extended video generation. Extensive experiments on the Basic and Agibot benchmarks demonstrate that PlenopticDreamer achieves state-of-the-art video re-rendering, delivering superior view synchronization, high-fidelity visuals, accurate camera control, and diverse view transformations (e.g., third-person to third-person, and head-view to gripper-view in robotic manipulation). Project page: https://research.nvidia.com/labs/dir/plenopticdreamer/

Geração de Vídeo Plenóptico

Plenoptic Video Generation

Resumo

Support