TokenDial: Controllo Continuo degli Attributi nel Text-to-Video tramite Offset Spaziotemporali dei Token
TokenDial: Continuous Attribute Control in Text-to-Video via Spatiotemporal Token Offsets
March 29, 2026
Autori: Zhixuan Liu, Peter Schaldenbrand, Yijun Li, Long Mai, Aniruddha Mahapatra, Cusuh Ham, Jean Oh, Jui-Hsien Wang
cs.AI
Abstract
Presentiamo TokenDial, un framework per il controllo continuo di attributi in stile cursore nei modelli preaddestrati di generazione video da testo. Sebbene i generatori moderni producano video olisticamente solidi, offrono un controllo limitato sull'entità della variazione di un attributo (ad esempio, l'intensità di un effetto o l'ampiezza di un movimento) senza alterare l'identità, lo sfondo o la coerenza temporale. TokenDial si basa sull'osservazione che gli offset additivi nello spazio intermedio dei token visivi spaziotemporali (patch-token) formano una direzione di controllo semantico, in cui l'aggiustamento dell'ampiezza dell'offset produce modifiche coerenti e prevedibili sia per l'aspetto che per la dinamica del movimento. Apprendiamo offset dei token specifici per attributo senza riaddestrare il modello base, utilizzando segnali di comprensione preaddestrati: abbinamento della direzione semantica per l'aspetto e scalatura dell'ampiezza del movimento per il moto. Dimostriamo l'efficacia di TokenDial su attributi e prompt diversi, raggiungendo una controllabilità superiore e modifiche di qualità più elevata rispetto ai baseline state-of-the-art, supportati da un'ampia valutazione quantitativa e studi umani.
English
We present TokenDial, a framework for continuous, slider-style attribute control in pretrained text-to-video generation models. While modern generators produce strong holistic videos, they offer limited control over how much an attribute changes (e.g., effect intensity or motion magnitude) without drifting identity, background, or temporal coherence. TokenDial is built on the observation: additive offsets in the intermediate spatiotemporal visual patch-token space form a semantic control direction, where adjusting the offset magnitude yields coherent, predictable edits for both appearance and motion dynamics. We learn attribute-specific token offsets without retraining the backbone, using pretrained understanding signals: semantic direction matching for appearance and motion-magnitude scaling for motion. We demonstrate TokenDial's effectiveness on diverse attributes and prompts, achieving stronger controllability and higher-quality edits than state-of-the-art baselines, supported by extensive quantitative evaluation and human studies.