BulletTime: Controle Desacoplado de Tempo e Pose da Câmara para Geração de Vídeo

Resumo

Os modelos emergentes de difusão de vídeo alcançam alta fidelidade visual, mas acoplam fundamentalmente a dinâmica da cena ao movimento da câmara, limitando sua capacidade de fornecer controlo espacial e temporal preciso. Apresentamos uma estrutura de difusão de vídeo com controlo 4D que desacopla explicitamente a dinâmica da cena da pose da câmara, permitindo a manipulação refinada tanto da dinâmica da cena quanto do ponto de vista da câmara. A nossa estrutura recebe sequências contínuas de tempo-mundo e trajetórias de câmara como entradas de condicionamento, injetando-as no modelo de difusão de vídeo através de uma codificação posicional 4D na camada de atenção e normalizações adaptativas para modulação de características. Para treinar este modelo, reunimos um conjunto de dados único no qual as variações temporais e de câmara são parametrizadas independentemente; este conjunto de dados será disponibilizado publicamente. Experiências demonstram que o nosso modelo alcança um controlo 4D robusto em cenários reais, abrangendo diversos padrões temporais e trajetórias de câmara, preservando alta qualidade de geração e superando trabalhos anteriores em controlabilidade. Consulte o nosso website para resultados em vídeo: https://19reborn.github.io/Bullet4D/

English

Emerging video diffusion models achieve high visual fidelity but fundamentally couple scene dynamics with camera motion, limiting their ability to provide precise spatial and temporal control. We introduce a 4D-controllable video diffusion framework that explicitly decouples scene dynamics from camera pose, enabling fine-grained manipulation of both scene dynamics and camera viewpoint. Our framework takes continuous world-time sequences and camera trajectories as conditioning inputs, injecting them into the video diffusion model through a 4D positional encoding in the attention layer and adaptive normalizations for feature modulation. To train this model, we curate a unique dataset in which temporal and camera variations are independently parameterized; this dataset will be made public. Experiments show that our model achieves robust real-world 4D control across diverse timing patterns and camera trajectories, while preserving high generation quality and outperforming prior work in controllability. See our website for video results: https://19reborn.github.io/Bullet4D/