SpaceTimePilot: Renderização Generativa de Cenas Dinâmicas Através do Espaço e do Tempo

Resumo

Apresentamos o SpaceTimePilot, um modelo de difusão de vídeo que desacopla o espaço e o tempo para renderização generativa controlável. Dado um vídeo monocular, o SpaceTimePilot pode alterar independentemente o ponto de vista da câmera e a sequência de movimento dentro do processo generativo, renderizando novamente a cena para uma exploração contínua e arbitrária através do espaço e do tempo. Para alcançar este objetivo, introduzimos um mecanismo eficaz de incorporação temporal de animação no processo de difusão, permitindo o controle explícito da sequência de movimento do vídeo de saída em relação à do vídeo de origem. Como nenhum conjunto de dados fornece vídeos emparelhados da mesma cena dinâmica com variações temporais contínuas, propomos um esquema de treinamento por deformação temporal simples, porém eficaz, que reaproveita conjuntos de dados multi-visão existentes para simular diferenças temporais. Esta estratégia supervisiona eficazmente o modelo para aprender o controle temporal e alcançar um desacoplamento espaço-temporal robusto. Para melhorar ainda mais a precisão do controle dual, introduzimos dois componentes adicionais: um mecanismo melhorado de condicionamento de câmera que permite alterar a câmera a partir do primeiro fotograma, e o CamxTime, o primeiro conjunto de dados de renderização sintético de cobertura total em espaço e tempo que fornece trajetórias de vídeo de espaço-tempo totalmente livres dentro de uma cena. O treinamento conjunto no esquema de deformação temporal e no conjunto de dados CamxTime produz um controle temporal mais preciso. Avaliamos o SpaceTimePilot em dados do mundo real e sintéticos, demonstrando um claro desacoplamento espaço-temporal e resultados sólidos em comparação com trabalhos anteriores. Página do projeto: https://zheninghuang.github.io/Space-Time-Pilot/ Código: https://github.com/ZheningHuang/spacetimepilot

English

We present SpaceTimePilot, a video diffusion model that disentangles space and time for controllable generative rendering. Given a monocular video, SpaceTimePilot can independently alter the camera viewpoint and the motion sequence within the generative process, re-rendering the scene for continuous and arbitrary exploration across space and time. To achieve this, we introduce an effective animation time-embedding mechanism in the diffusion process, allowing explicit control of the output video's motion sequence with respect to that of the source video. As no datasets provide paired videos of the same dynamic scene with continuous temporal variations, we propose a simple yet effective temporal-warping training scheme that repurposes existing multi-view datasets to mimic temporal differences. This strategy effectively supervises the model to learn temporal control and achieve robust space-time disentanglement. To further enhance the precision of dual control, we introduce two additional components: an improved camera-conditioning mechanism that allows altering the camera from the first frame, and CamxTime, the first synthetic space-and-time full-coverage rendering dataset that provides fully free space-time video trajectories within a scene. Joint training on the temporal-warping scheme and the CamxTime dataset yields more precise temporal control. We evaluate SpaceTimePilot on both real-world and synthetic data, demonstrating clear space-time disentanglement and strong results compared to prior work. Project page: https://zheninghuang.github.io/Space-Time-Pilot/ Code: https://github.com/ZheningHuang/spacetimepilot

SpaceTimePilot: Renderização Generativa de Cenas Dinâmicas Através do Espaço e do Tempo

SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time

Resumo

Support