ChatPaper.aiChatPaper

Meegaan met het spoor: videocompositie en bewegingscontrole met puntvolging

Go-with-the-Track: Video Compositing and Motion Control with Point Tracking

June 18, 2026
Auteurs: Koichi Namekata, Yash Kant, Zhizheng Liu, Ryan D Burgert, Yuancheng Xu, Kuan Heng Lin, Emmett Steven, Julien Philip, Li Ma, Andrea Vedaldi, Paul Debevec, Ning Yu
cs.AI

Samenvatting

Filmproductie vereist nauwkeurige bewegingscontrole en het samenstellen van referentiebeelden – mogelijkheden die bestaande methoden afzonderlijk behandelen. Punt-spoor-geconditioneerde beeld-naar-video modellen beperken het invoegen van content tot het eerste frame, terwijl referentie-naar-video modellen geen fijnmazige ruimtelijk-temporele controle bieden over hoe referentiecontent over frames wordt geïntegreerd. Wij presenteren Go-with-the-Track, dat beide capaciteiten verenigt door gezamenlijk te conditioneren op meerdere referentiebeelden en referentie-verankerde punt-sporen – waarbij conventionele punt-sporen worden uitgebreid om expliciet overeenkomsten tot stand te brengen tussen gegenereerde frames en referentiebeelden, waardoor nauwkeurige compositie en bewegingscontrole gedurende de gehele video mogelijk wordt. Om dit te bereiken introduceren wij ruimtelijk bewuste punt-spoor inbeddingen die de volledige reeks punt-spoor coördinaten coderen met behulp van een coördinaatsgewijze MLP gevolgd door temporele pooling. Deze representatie vat de ruimtelijke kenmerken van elk punt-spoor samen (als unieke identificator), terwijl de inbeddingsovereenkomst direct correleert met ruimtelijke nabijheid, wat het vermogen van het model om punt-sporen te onderscheiden en te associëren versterkt. Wij injecteren deze punt-spoor inbeddingen in een video diffusie transformator via een lichtgewicht adapter, waardoor de pixel-naar-patch resolutie mismatch wordt opgelost en het substantiële verlies aan bewegingsdetails dat inherent is aan naïeve punt-spoor subsampling wordt vermeden. Wij gebruiken een hybride trainingsstrategie om gezamenlijk te trainen op dynamische, statische en synthetische scène-video datasets om de bewegingscontroleerbaarheid te verbeteren. Experimenten tonen aan dat Go-with-the-Track superieure bewegings- en referentiecontrole in één enkel model bereikt en nieuwe mogelijkheden mogelijk maakt: meervoudig referentie-geconditioneerde videogeneratie met punt-spoor gedreven compositie, evenals cameracontrole voor zowel statische als dynamische scènes. Projectpagina: https://eyeline-labs.github.io/Go-with-the-Track/
English
Filmmaking demands precise motion control and reference image compositing -- capabilities that existing methods treat separately. Point-track-conditioned image-to-video models restrict content insertion to the first frame, while reference-to-video models lack fine-grained spatial-temporal control over how reference content integrates across frames. We present Go-with-the-Track, which unifies both capabilities by jointly conditioning on multiple reference images and reference-anchored point-tracks -- extending conventional point-tracks to explicitly establish correspondences between generated frames and reference images, thus enabling precise compositing and motion control throughout the video. To achieve this, we introduce spatially-aware point-track embeddings that encode the full sequence of point-track coordinates using a coordinate-wise MLP followed by temporal pooling. This representation captures the spatial characteristics of each point-track (serving as a unique identifier), while the embedding similarity correlates directly with spatial proximity, enhancing the model's ability to distinguish and associate point-tracks. We inject these point-track embeddings into a video diffusion transformer via a lightweight adapter, resolving the pixel-to-patch resolution mismatch while avoiding the substantial motion detail loss inherent in naive point-track subsampling. We use a hybrid training strategy to train jointly on dynamic, static, and synthetic scene video datasets to boost motion controllability. Experiments demonstrate that Go-with-the-Track achieves superior motion and reference control in a single model and enables new capabilities: multi-reference conditioned video generation with point-track driven compositing, as well as camera control for both static and dynamic scenes. Project Page: https://eyeline-labs.github.io/Go-with-the-Track/