TokenDial : Contrôle continu d'attributs dans la génération vidéo par texte via des décalages spatiotemporels de tokens
TokenDial: Continuous Attribute Control in Text-to-Video via Spatiotemporal Token Offsets
March 29, 2026
Auteurs: Zhixuan Liu, Peter Schaldenbrand, Yijun Li, Long Mai, Aniruddha Mahapatra, Cusuh Ham, Jean Oh, Jui-Hsien Wang
cs.AI
Résumé
Nous présentons TokenDial, un cadre pour le contrôle continu d'attributs par curseur dans les modèles de génération vidéo à partir de texte pré-entraînés. Bien que les générateurs modernes produisent des vidéos globalement convaincantes, ils offrent un contrôle limité sur l'amplitude de variation d'un attribut (par exemple, l'intensité d'un effet ou l'ampleur d'un mouvement) sans altérer l'identité, l'arrière-plan ou la cohérence temporelle. TokenDial repose sur l'observation suivante : les décalages additifs dans l'espace intermédiaire des *tokens* de patchs visuels spatio-temporels forment une direction de contrôle sémantique, où l'ajustement de l'amplitude du décalage produit des modifications cohérentes et prévisibles, tant pour l'apparence que pour la dynamique des mouvements. Nous apprenons des décalages de *tokens* spécifiques à un attribut sans réentraîner le modèle de base, en utilisant des signaux de compréhension pré-entraînés : l'appariement de direction sémantique pour l'apparence et la mise à l'échelle de l'amplitude du mouvement pour le mouvement. Nous démontrons l'efficacité de TokenDial sur divers attributs et prompts, atteignant une meilleure contrôlabilité et des modifications de qualité supérieure par rapport à l'état de l'art, comme le confirment une évaluation quantitative approfondie et des études humaines.
English
We present TokenDial, a framework for continuous, slider-style attribute control in pretrained text-to-video generation models. While modern generators produce strong holistic videos, they offer limited control over how much an attribute changes (e.g., effect intensity or motion magnitude) without drifting identity, background, or temporal coherence. TokenDial is built on the observation: additive offsets in the intermediate spatiotemporal visual patch-token space form a semantic control direction, where adjusting the offset magnitude yields coherent, predictable edits for both appearance and motion dynamics. We learn attribute-specific token offsets without retraining the backbone, using pretrained understanding signals: semantic direction matching for appearance and motion-magnitude scaling for motion. We demonstrate TokenDial's effectiveness on diverse attributes and prompts, achieving stronger controllability and higher-quality edits than state-of-the-art baselines, supported by extensive quantitative evaluation and human studies.