TokenDial: Kontinuierliche Attributsteuerung in Text-zu-Video durch raumzeitliche Token-Offsets
TokenDial: Continuous Attribute Control in Text-to-Video via Spatiotemporal Token Offsets
March 29, 2026
Autoren: Zhixuan Liu, Peter Schaldenbrand, Yijun Li, Long Mai, Aniruddha Mahapatra, Cusuh Ham, Jean Oh, Jui-Hsien Wang
cs.AI
Zusammenfassung
Wir stellen TokenDial vor, einen Rahmen für kontinuierliche, schiebereglerartige Attributsteuerung in vortrainierten Text-zu-Video-Generierungsmodellen. Während moderne Generatoren starke ganzheitliche Videos erzeugen, bieten sie nur begrenzte Kontrolle darüber, wie stark sich ein Attribut ändert (z.B. Effektintensität oder Bewegungsstärke), ohne dass Identität, Hintergrund oder zeitliche Kohärenz verloren gehen. TokenDial basiert auf der Beobachtung, dass additive Verschiebungen im intermediären raumzeitlichen visuellen Patch-Token-Raum eine semantische Steuerrichtung bilden, wobei die Anpassung der Verschiebungsstärke kohärente, vorhersehbare Bearbeitungen sowohl für das Erscheinungsbild als auch für die Bewegungsdynamik ergibt. Wir lernen attributspezifische Token-Verschiebungen ohne Neu-training des Grundmodells, indem wir vortrainierte Verständnissignale nutzen: semantische Richtungsabgleichung für das Erscheinungsbild und Bewegungsstärken-Skalierung für die Bewegung. Wir demonstrieren die Wirksamkeit von TokenDial anhand verschiedener Attribute und Prompts und erreichen im Vergleich zu state-of-the-art Baseline-Verfahren eine stärkere Steuerbarkeit und qualitativ hochwertigere Bearbeitungen, gestützt durch umfangreiche quantitative Evaluationen und Nutzerstudien.
English
We present TokenDial, a framework for continuous, slider-style attribute control in pretrained text-to-video generation models. While modern generators produce strong holistic videos, they offer limited control over how much an attribute changes (e.g., effect intensity or motion magnitude) without drifting identity, background, or temporal coherence. TokenDial is built on the observation: additive offsets in the intermediate spatiotemporal visual patch-token space form a semantic control direction, where adjusting the offset magnitude yields coherent, predictable edits for both appearance and motion dynamics. We learn attribute-specific token offsets without retraining the backbone, using pretrained understanding signals: semantic direction matching for appearance and motion-magnitude scaling for motion. We demonstrate TokenDial's effectiveness on diverse attributes and prompts, achieving stronger controllability and higher-quality edits than state-of-the-art baselines, supported by extensive quantitative evaluation and human studies.