Go-with-the-Track: Composición de video y control de movimiento con seguimiento de puntos

Resumen

La realización cinematográfica exige un control preciso del movimiento y la composición de imágenes de referencia — capacidades que los métodos existentes tratan por separado. Los modelos de imagen a video condicionados por seguimiento de puntos restringen la inserción de contenido al primer fotograma, mientras que los modelos de referencia a video carecen de un control espacio-temporal detallado sobre cómo el contenido de referencia se integra a lo largo de los fotogramas. Presentamos Go-with-the-Track, que unifica ambas capacidades mediante el condicionamiento conjunto en múltiples imágenes de referencia y trayectorias de puntos ancladas a referencia — extendiendo las trayectorias de puntos convencionales para establecer explícitamente correspondencias entre los fotogramas generados y las imágenes de referencia, permitiendo así una composición y un control del movimiento precisos en todo el video. Para lograr esto, introducimos incrustaciones de trayectorias de puntos con conciencia espacial que codifican la secuencia completa de coordenadas de la trayectoria utilizando un MLP por coordenadas seguido de una agrupación temporal. Esta representación captura las características espaciales de cada trayectoria de puntos (sirviendo como un identificador único), mientras que la similitud de las incrustaciones se correlaciona directamente con la proximidad espacial, mejorando la capacidad del modelo para distinguir y asociar trayectorias de puntos. Inyectamos estas incrustaciones de trayectorias de puntos en un transformador de difusión de video mediante un adaptador ligero, resolviendo el desajuste de resolución píxel a parche y evitando la pérdida sustancial de detalles de movimiento inherente al submuestreo ingenuo de trayectorias de puntos. Utilizamos una estrategia de entrenamiento híbrido para entrenar conjuntamente en conjuntos de datos de video de escenas dinámicas, estáticas y sintéticas para mejorar el control del movimiento. Los experimentos demuestran que Go-with-the-Track logra un control superior del movimiento y de la referencia en un solo modelo y habilita nuevas capacidades: generación de video condicionada por múltiples referencias con composición impulsada por trayectorias de puntos, así como control de cámara tanto para escenas estáticas como dinámicas. Página del proyecto: https://eyeline-labs.github.io/Go-with-the-Track/

English

Filmmaking demands precise motion control and reference image compositing -- capabilities that existing methods treat separately. Point-track-conditioned image-to-video models restrict content insertion to the first frame, while reference-to-video models lack fine-grained spatial-temporal control over how reference content integrates across frames. We present Go-with-the-Track, which unifies both capabilities by jointly conditioning on multiple reference images and reference-anchored point-tracks -- extending conventional point-tracks to explicitly establish correspondences between generated frames and reference images, thus enabling precise compositing and motion control throughout the video. To achieve this, we introduce spatially-aware point-track embeddings that encode the full sequence of point-track coordinates using a coordinate-wise MLP followed by temporal pooling. This representation captures the spatial characteristics of each point-track (serving as a unique identifier), while the embedding similarity correlates directly with spatial proximity, enhancing the model's ability to distinguish and associate point-tracks. We inject these point-track embeddings into a video diffusion transformer via a lightweight adapter, resolving the pixel-to-patch resolution mismatch while avoiding the substantial motion detail loss inherent in naive point-track subsampling. We use a hybrid training strategy to train jointly on dynamic, static, and synthetic scene video datasets to boost motion controllability. Experiments demonstrate that Go-with-the-Track achieves superior motion and reference control in a single model and enables new capabilities: multi-reference conditioned video generation with point-track driven compositing, as well as camera control for both static and dynamic scenes. Project Page: https://eyeline-labs.github.io/Go-with-the-Track/