TokenDial: Controle Contínuo de Atributos em Texto-para-Vídeo via Deslocamentos Espaço-Temporais de Tokens

Resumo

Apresentamos o TokenDial, uma estrutura para controle contínuo de atributos no estilo de controle deslizante em modelos pré-treinados de geração de texto para vídeo. Embora os geradores modernos produzam vídeos holisticamente robustos, eles oferecem controle limitado sobre a intensidade de alteração de um atributo (por exemplo, intensidade de efeito ou magnitude de movimento) sem comprometer a identidade, o plano de fundo ou a coerência temporal. O TokenDial é baseado na observação de que deslocamentos aditivos no espaço intermediário de tokens visuais espaço-temporais formam uma direção de controle semântica, onde o ajuste da magnitude do deslocamento produz edições coerentes e previsíveis tanto para a aparência quanto para a dinâmica de movimento. Aprendemos deslocamentos de tokens específicos para cada atributo sem retreinar o modelo base, utilizando sinais de compreensão pré-treinados: correspondência de direção semântica para aparência e escalonamento de magnitude de movimento para dinâmica. Demonstramos a eficácia do TokenDial em diversos atributos e prompts, alcançando maior controlabilidade e edições de qualidade superior em comparação com as abordagens state-of-the-art, apoiados por extensa avaliação quantitativa e estudos com humanos.

English

We present TokenDial, a framework for continuous, slider-style attribute control in pretrained text-to-video generation models. While modern generators produce strong holistic videos, they offer limited control over how much an attribute changes (e.g., effect intensity or motion magnitude) without drifting identity, background, or temporal coherence. TokenDial is built on the observation: additive offsets in the intermediate spatiotemporal visual patch-token space form a semantic control direction, where adjusting the offset magnitude yields coherent, predictable edits for both appearance and motion dynamics. We learn attribute-specific token offsets without retraining the backbone, using pretrained understanding signals: semantic direction matching for appearance and motion-magnitude scaling for motion. We demonstrate TokenDial's effectiveness on diverse attributes and prompts, achieving stronger controllability and higher-quality edits than state-of-the-art baselines, supported by extensive quantitative evaluation and human studies.

TokenDial: Controle Contínuo de Atributos em Texto-para-Vídeo via Deslocamentos Espaço-Temporais de Tokens

TokenDial: Continuous Attribute Control in Text-to-Video via Spatiotemporal Token Offsets

Resumo

Support