TokenDial: Непрерывное управление атрибутами в текстово-видео генерации через пространственно-временные смещения токенов

Аннотация

Мы представляем TokenDial — фреймворк для непрерывного, слайдероподобного управления атрибутами в предобученных моделях генерации видео из текста. Несмотря на то, что современные генераторы создают качественные видео в целом, они предлагают ограниченный контроль над степенью изменения атрибута (например, интенсивностью эффекта или величиной движения) без нарушения идентичности, фона или временной согласованности. TokenDial основан на наблюдении: аддитивные смещения в промежуточном пространстве пространственно-временных визуальных токенов-патчей образуют семантическое направление контроля, где регулировка величины смещения приводит к согласованным, предсказуемым правкам как внешнего вида, так и динамики движения. Мы обучаем специфичные для атрибута смещения токенов без переобучения базовой модели, используя предобученные сигналы понимания: сопоставление семантического направления для внешнего вида и масштабирование величины движения для динамики. Мы демонстрируем эффективность TokenDial на различных атрибутах и промптах, достигая более высокой управляемости и правок лучшего качества по сравнению с передовыми базовыми методами, что подтверждается обширной количественной оценкой и исследованиями с участием людей.

English

We present TokenDial, a framework for continuous, slider-style attribute control in pretrained text-to-video generation models. While modern generators produce strong holistic videos, they offer limited control over how much an attribute changes (e.g., effect intensity or motion magnitude) without drifting identity, background, or temporal coherence. TokenDial is built on the observation: additive offsets in the intermediate spatiotemporal visual patch-token space form a semantic control direction, where adjusting the offset magnitude yields coherent, predictable edits for both appearance and motion dynamics. We learn attribute-specific token offsets without retraining the backbone, using pretrained understanding signals: semantic direction matching for appearance and motion-magnitude scaling for motion. We demonstrate TokenDial's effectiveness on diverse attributes and prompts, achieving stronger controllability and higher-quality edits than state-of-the-art baselines, supported by extensive quantitative evaluation and human studies.

TokenDial: Непрерывное управление атрибутами в текстово-видео генерации через пространственно-временные смещения токенов

TokenDial: Continuous Attribute Control in Text-to-Video via Spatiotemporal Token Offsets

Аннотация

Support