Tri-Prompting: Difusão de Vídeo com Controle Unificado sobre Cenário, Sujeito e Movimento

Resumo

Os recentes modelos de difusão de vídeo têm feito progressos notáveis na qualidade visual, mas o controle preciso e granular permanece um gargalo fundamental que limita a customização prática para a criação de conteúdo. Para criadores de vídeo com IA, três formas de controle são cruciais: (i) composição de cena, (ii) customização consistente de sujeitos em múltiplas vistas e (iii) ajuste de pose de câmera ou movimento de objetos. Os métodos existentes normalmente lidam com essas dimensões de forma isolada, com suporte limitado para síntese de sujeitos em múltiplas vistas e preservação de identidade sob mudanças arbitrárias de pose. Esta falta de uma arquitetura unificada dificulta o suporte a vídeos versáteis e conjuntamente controláveis. Introduzimos o Tri-Prompting, uma estrutura unificada e um paradigma de treinamento em dois estágios que integra composição de cena, consistência de sujeitos em múltiplas vistas e controle de movimento. Nossa abordagem aproveita um módulo de movimento de dupla condição acionado por pontos de rastreamento 3D para cenários de fundo e pistas RGB redimensionadas para sujeitos em primeiro plano. Para garantir um equilíbrio entre controlabilidade e realismo visual, propomos ainda um escalonamento de escala do ControlNet na inferência. O Tri-Prompting suporta novos fluxos de trabalho, incluindo a inserção de sujeitos com consciência 3D em qualquer cena e a manipulação de sujeitos existentes em uma imagem. Resultados experimentais demonstram que o Tri-Prompting supera significativamente linhas de base especializadas como Phantom e DaS em identidade de sujeitos em múltiplas vistas, consistência 3D e precisão de movimento.

English

Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.

Tri-Prompting: Difusão de Vídeo com Controle Unificado sobre Cenário, Sujeito e Movimento

Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

Resumo

Support