Tri-Prompting: Difusão de Vídeo com Controle Unificado sobre Cenário, Sujeito e Movimento
Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion
March 16, 2026
Autores: Zhenghong Zhou, Xiaohang Zhan, Zhiqin Chen, Soo Ye Kim, Nanxuan Zhao, Haitian Zheng, Qing Liu, He Zhang, Zhe Lin, Yuqian Zhou, Jiebo Luo
cs.AI
Resumo
Os recentes modelos de difusão de vídeo têm feito progressos notáveis na qualidade visual, mas o controle preciso e granular permanece um gargalo fundamental que limita a customização prática para a criação de conteúdo. Para criadores de vídeo com IA, três formas de controle são cruciais: (i) composição de cena, (ii) customização consistente de sujeitos em múltiplas vistas e (iii) ajuste de pose de câmera ou movimento de objetos. Os métodos existentes normalmente lidam com essas dimensões de forma isolada, com suporte limitado para síntese de sujeitos em múltiplas vistas e preservação de identidade sob mudanças arbitrárias de pose. Esta falta de uma arquitetura unificada dificulta o suporte a vídeos versáteis e conjuntamente controláveis. Introduzimos o Tri-Prompting, uma estrutura unificada e um paradigma de treinamento em dois estágios que integra composição de cena, consistência de sujeitos em múltiplas vistas e controle de movimento. Nossa abordagem aproveita um módulo de movimento de dupla condição acionado por pontos de rastreamento 3D para cenários de fundo e pistas RGB redimensionadas para sujeitos em primeiro plano. Para garantir um equilíbrio entre controlabilidade e realismo visual, propomos ainda um escalonamento de escala do ControlNet na inferência. O Tri-Prompting suporta novos fluxos de trabalho, incluindo a inserção de sujeitos com consciência 3D em qualquer cena e a manipulação de sujeitos existentes em uma imagem. Resultados experimentais demonstram que o Tri-Prompting supera significativamente linhas de base especializadas como Phantom e DaS em identidade de sujeitos em múltiplas vistas, consistência 3D e precisão de movimento.
English
Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.