ChatPaper.aiChatPaper

Go-with-the-Track : Compositing vidéo et contrôle de mouvement par suivi de points

Go-with-the-Track: Video Compositing and Motion Control with Point Tracking

June 18, 2026
Auteurs: Koichi Namekata, Yash Kant, Zhizheng Liu, Ryan D Burgert, Yuancheng Xu, Kuan Heng Lin, Emmett Steven, Julien Philip, Li Ma, Andrea Vedaldi, Paul Debevec, Ning Yu
cs.AI

Résumé

La réalisation cinématographique exige un contrôle précis du mouvement et un compositing d'images de référence — des capacités que les méthodes existantes traitent séparément. Les modèles image-vers-vidéo conditionnés par des point-tracks limitent l'insertion de contenu à la première image, tandis que les modèles référence-vers-vidéo ne disposent pas d'un contrôle spatio-temporel fin sur la manière dont le contenu de référence s'intègre à travers les images. Nous présentons Go-with-the-Track, qui unifie ces deux capacités en se conditionnant conjointement sur plusieurs images de référence et des point-tracks ancrés sur les références — étendant les point-tracks conventionnels pour établir explicitement des correspondances entre les images générées et les images de référence, permettant ainsi un compositing précis et un contrôle du mouvement tout au long de la vidéo. Pour y parvenir, nous introduisons des encodages de point-tracks conscients de la spatialité qui encodent la séquence complète des coordonnées des point-tracks à l'aide d'un MLP par coordonnée suivi d'un pooling temporel. Cette représentation capture les caractéristiques spatiales de chaque point-track (servant d'identifiant unique), tandis que la similarité des encodages est directement corrélée à la proximité spatiale, améliorant la capacité du modèle à distinguer et associer les point-tracks. Nous injectons ces encodages de point-tracks dans un transformer de diffusion vidéo via un adaptateur léger, résolvant le décalage de résolution pixel-vers-patch tout en évitant la perte substantielle de détails de mouvement inhérente au sous-échantillonnage naïf des point-tracks. Nous utilisons une stratégie d'entraînement hybride pour entraîner conjointement sur des ensembles de données vidéo de scènes dynamiques, statiques et synthétiques afin d'améliorer la contrôlabilité du mouvement. Les expériences montrent que Go-with-the-Track atteint un contrôle supérieur du mouvement et des références dans un seul modèle et permet de nouvelles capacités : la génération vidéo conditionnée par plusieurs références avec un compositing piloté par point-tracks, ainsi que le contrôle de la caméra pour les scènes statiques et dynamiques. Page du projet : https://eyeline-labs.github.io/Go-with-the-Track/
English
Filmmaking demands precise motion control and reference image compositing -- capabilities that existing methods treat separately. Point-track-conditioned image-to-video models restrict content insertion to the first frame, while reference-to-video models lack fine-grained spatial-temporal control over how reference content integrates across frames. We present Go-with-the-Track, which unifies both capabilities by jointly conditioning on multiple reference images and reference-anchored point-tracks -- extending conventional point-tracks to explicitly establish correspondences between generated frames and reference images, thus enabling precise compositing and motion control throughout the video. To achieve this, we introduce spatially-aware point-track embeddings that encode the full sequence of point-track coordinates using a coordinate-wise MLP followed by temporal pooling. This representation captures the spatial characteristics of each point-track (serving as a unique identifier), while the embedding similarity correlates directly with spatial proximity, enhancing the model's ability to distinguish and associate point-tracks. We inject these point-track embeddings into a video diffusion transformer via a lightweight adapter, resolving the pixel-to-patch resolution mismatch while avoiding the substantial motion detail loss inherent in naive point-track subsampling. We use a hybrid training strategy to train jointly on dynamic, static, and synthetic scene video datasets to boost motion controllability. Experiments demonstrate that Go-with-the-Track achieves superior motion and reference control in a single model and enables new capabilities: multi-reference conditioned video generation with point-track driven compositing, as well as camera control for both static and dynamic scenes. Project Page: https://eyeline-labs.github.io/Go-with-the-Track/