TokenDial: Control Continuo de Atributos en Texto a Video mediante Desplazamientos Espaciotemporales de Tokens

Resumen

Presentamos TokenDial, un marco para el control continuo de atributos en estilo deslizante en modelos preentrenados de generación de texto a video. Si bien los generadores modernos producen videos holísticos de alta calidad, ofrecen un control limitado sobre el grado de cambio de un atributo (por ejemplo, la intensidad de un efecto o la magnitud del movimiento) sin que se degrade la identidad, el fondo o la coherencia temporal. TokenDial se basa en la siguiente observación: los desplazamientos aditivos en el espacio intermedio de *tokens* de parches visuales espacio-temporales forman una dirección de control semántico, donde ajustar la magnitud del desplazamiento produce ediciones coherentes y predecibles tanto en la apariencia como en la dinámica del movimiento. Aprendemos desplazamientos de *tokens* específicos para cada atributo sin reentrenar el modelo base, utilizando señales de comprensión preentrenadas: emparejamiento de dirección semántica para la apariencia y escalado de magnitud de movimiento para el movimiento. Demostramos la efectividad de TokenDial en diversos atributos y *prompts*, logrando una mayor capacidad de control y ediciones de mayor calidad que los métodos de referencia del estado del arte, respaldados por una extensa evaluación cuantitativa y estudios con usuarios.

English

We present TokenDial, a framework for continuous, slider-style attribute control in pretrained text-to-video generation models. While modern generators produce strong holistic videos, they offer limited control over how much an attribute changes (e.g., effect intensity or motion magnitude) without drifting identity, background, or temporal coherence. TokenDial is built on the observation: additive offsets in the intermediate spatiotemporal visual patch-token space form a semantic control direction, where adjusting the offset magnitude yields coherent, predictable edits for both appearance and motion dynamics. We learn attribute-specific token offsets without retraining the backbone, using pretrained understanding signals: semantic direction matching for appearance and motion-magnitude scaling for motion. We demonstrate TokenDial's effectiveness on diverse attributes and prompts, achieving stronger controllability and higher-quality edits than state-of-the-art baselines, supported by extensive quantitative evaluation and human studies.

TokenDial: Control Continuo de Atributos en Texto a Video mediante Desplazamientos Espaciotemporales de Tokens

TokenDial: Continuous Attribute Control in Text-to-Video via Spatiotemporal Token Offsets

Resumen

Support