Go-with-the-Track: Videokomposition und Bewegungskontrolle mit Punktverfolgung

Zusammenfassung

Die Filmproduktion erfordert präzise Bewegungssteuerung und Referenzbild-Compositing – Fähigkeiten, die bestehende Methoden getrennt behandeln. Punktspur-konditionierte Bild-zu-Video-Modelle beschränken die Bildeinfügung auf den ersten Frame, während Referenz-zu-Video-Modelle keine feinkörnige räumlich-zeitliche Kontrolle darüber bieten, wie Referenzinhalte über Frames hinweg integriert werden. Wir präsentieren Go-with-the-Track, das beide Fähigkeiten vereint, indem es gemeinsam auf mehrere Referenzbilder und referenzverankerte Punktspuren konditioniert wird – dies erweitert herkömmliche Punktspuren, um explizit Korrespondenzen zwischen generierten Frames und Referenzbildern herzustellen, und ermöglicht so präzises Compositing und Bewegungssteuerung im gesamten Video. Um dies zu erreichen, führen wir ortsbewusste Punktspur-Einbettungen ein, die die vollständige Sequenz von Punktspurkoordinaten mittels eines koordinatenweisen MLP gefolgt von zeitlichem Pooling kodieren. Diese Darstellung erfasst die räumlichen Eigenschaften jeder Punktspur (als eindeutige Kennung), während die Ähnlichkeit der Einbettungen direkt mit räumlicher Nähe korreliert, was die Fähigkeit des Modells verbessert, Punktspuren zu unterscheiden und zu assoziieren. Wir injizieren diese Punktspur-Einbettungen über einen leichten Adapter in einen Video-Diffusionstransformator, wobei die Pixel-zu-Patch-Auflösungsinkongruenz behoben und der erhebliche Verlust von Bewegungsdetails vermieden wird, der bei einer naiven Punktspur-Unterabtastung inhärent ist. Wir verwenden eine hybride Trainingsstrategie, um gemeinsam auf dynamischen, statischen und synthetischen Videodatensätzen zu trainieren und so die Bewegungssteuerbarkeit zu verbessern. Experimente zeigen, dass Go-with-the-Track in einem einzigen Modell überlegene Bewegungs- und Referenzsteuerung erreicht und neue Fähigkeiten ermöglicht: Multi-Referenz-konditionierte Videogenerierung mit punktspurgesteuertem Compositing sowie Kamerasteuerung für sowohl statische als auch dynamische Szenen. Projektseite: https://eyeline-labs.github.io/Go-with-the-Track/

English

Filmmaking demands precise motion control and reference image compositing -- capabilities that existing methods treat separately. Point-track-conditioned image-to-video models restrict content insertion to the first frame, while reference-to-video models lack fine-grained spatial-temporal control over how reference content integrates across frames. We present Go-with-the-Track, which unifies both capabilities by jointly conditioning on multiple reference images and reference-anchored point-tracks -- extending conventional point-tracks to explicitly establish correspondences between generated frames and reference images, thus enabling precise compositing and motion control throughout the video. To achieve this, we introduce spatially-aware point-track embeddings that encode the full sequence of point-track coordinates using a coordinate-wise MLP followed by temporal pooling. This representation captures the spatial characteristics of each point-track (serving as a unique identifier), while the embedding similarity correlates directly with spatial proximity, enhancing the model's ability to distinguish and associate point-tracks. We inject these point-track embeddings into a video diffusion transformer via a lightweight adapter, resolving the pixel-to-patch resolution mismatch while avoiding the substantial motion detail loss inherent in naive point-track subsampling. We use a hybrid training strategy to train jointly on dynamic, static, and synthetic scene video datasets to boost motion controllability. Experiments demonstrate that Go-with-the-Track achieves superior motion and reference control in a single model and enables new capabilities: multi-reference conditioned video generation with point-track driven compositing, as well as camera control for both static and dynamic scenes. Project Page: https://eyeline-labs.github.io/Go-with-the-Track/