TokenDial: Continue attribuutbeheer in tekst-naar-video via ruimtelijk-temporele tokenverschuivingen
TokenDial: Continuous Attribute Control in Text-to-Video via Spatiotemporal Token Offsets
March 29, 2026
Auteurs: Zhixuan Liu, Peter Schaldenbrand, Yijun Li, Long Mai, Aniruddha Mahapatra, Cusuh Ham, Jean Oh, Jui-Hsien Wang
cs.AI
Samenvatting
Wij presenteren TokenDial, een raamwerk voor continue, schuifregelaarachtige attribuutcontrole in vooraf getrainde tekst-naar-video-generatiemodellen. Hoewel moderne generatoren sterke holistische video's produceren, bieden ze beperkte controle over de mate waarin een attribuut verandert (bijv. effectintensiteit of bewegingsomvang) zonder dat identiteit, achtergrond of temporele coherentie verloren gaan. TokenDial is gebaseerd op de observatie dat additieve offsets in de tussenliggende spatiotemporele visuele patch-tokenruimte een semantische controlerichting vormen, waarbij het aanpassen van de offsetgrootte coherente, voorspelbare bewerkingen oplevert voor zowel uiterlijk als bewegingsdynamiek. Wij leren attribuutspecifieke tokenoffsets zonder de backbone opnieuw te trainen, door gebruik te maken van vooraf getrainde begripsignalen: semantische richtingsmatching voor uiterlijk en schaling van bewegingsomvang voor beweging. Wij demonstreren de effectiviteit van TokenDial voor diverse attributen en prompts, waarbij het sterkere beheersbaarheid en bewerkingen van hogere kwaliteit bereikt dan state-of-the-art referentiemethoden, ondersteund door uitgebreide kwantitatieve evaluatie en gebruikersstudies.
English
We present TokenDial, a framework for continuous, slider-style attribute control in pretrained text-to-video generation models. While modern generators produce strong holistic videos, they offer limited control over how much an attribute changes (e.g., effect intensity or motion magnitude) without drifting identity, background, or temporal coherence. TokenDial is built on the observation: additive offsets in the intermediate spatiotemporal visual patch-token space form a semantic control direction, where adjusting the offset magnitude yields coherent, predictable edits for both appearance and motion dynamics. We learn attribute-specific token offsets without retraining the backbone, using pretrained understanding signals: semantic direction matching for appearance and motion-magnitude scaling for motion. We demonstrate TokenDial's effectiveness on diverse attributes and prompts, achieving stronger controllability and higher-quality edits than state-of-the-art baselines, supported by extensive quantitative evaluation and human studies.