Track2View: Geração de Vídeo Consistente em 4D Controlada por Câmera via Rastros de Pontos 3D Pareados

Resumo

Re-renderizar um vídeo existente a partir de um novo ponto de vista da câmara exige que a saída siga a trajetória prescrita da câmara, preservando a aparência e a dinâmica da cena original em todos os fotogramas. Os métodos existentes baseiam-se em embeddings de pose por fotograma, renderizações ruidosas de nuvens de pontos ou correspondências implícitas aprendidas, nenhum dos quais fornece uma ligação explícita e temporalmente contínua entre os píxeis de origem e de destino. Propomos o Track2View, que condiciona um transformador de difusão de vídeo a pares de trilhas de pontos 3D: trajetórias esparsas de pontos da cena projetados nas vistas da câmara de origem e de destino. Essas trilhas fornecem correspondências espaço-temporais explícitas que são temporalmente contínuas por construção, codificando qual conteúdo deve aparecer onde e quando. No núcleo do Track2View está um condicionador de trilhas de vista dupla que transfere o contexto visual da vista de origem para a vista de destino através de operações geométricas sem parâmetros e agregação temporal aprendida, garantindo generalização para trajetórias de câmara arbitrárias sem memorizar movimentos específicos. Introduzimos ainda um pipeline de curadoria de dados que extrai correspondências de trilhas um-para-um executando um rastreador de pontos 3D em pares de vistas de múltiplas câmaras temporalmente concatenadas. Num benchmark de 400 vídeos abrangendo cenas estáticas e dinâmicas, o Track2View alcança resultados de última geração em qualidade visual, sincronização de vistas e precisão de câmara, reduzindo o erro de rotação em 30-65% e o erro de translação em 61-72% em relação às principais linhas de base. A página do projeto está disponível neste URL: https://qjizhi.github.io/track2view

English

Re-rendering an existing video from a novel camera viewpoint requires the output to follow the prescribed camera trajectory while preserving the appearance and dynamics of the original scene across every frame. Existing methods rely on per-frame pose embeddings, noisy point-cloud renderings, or implicit learned correspondences, none of which provides an explicit, temporally continuous link between source and target pixels. We propose Track2View, which conditions a video diffusion transformer on paired 3D point tracks: sparse trajectories of scene points projected into both the source and target camera views. These tracks provide explicit spatiotemporal correspondences that are temporally continuous by construction, encoding what content should appear where and when. At the core of Track2View is a dual-view track conditioner that transfers visual context from source to target view through parameter-free geometric operations and learned temporal aggregation, ensuring generalization to arbitrary camera trajectories without memorizing specific motions. We further introduce a data curation pipeline that extracts one-to-one track correspondences by running a 3D point tracker on temporally concatenated multi-camera view pairs. On a 400-video benchmark spanning static and dynamic scenes, Track2View achieves state-of-the-art results across visual quality, view synchronization, and camera accuracy, reducing rotation error by 30-65% and translation error by 61-72% relative to leading baselines. Project page is available at this https URL: https://qjizhi.github.io/track2view