Tri-Prompting: Difusión de Video con Control Unificado sobre Escena, Sujeto y Movimiento
Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion
March 16, 2026
Autores: Zhenghong Zhou, Xiaohang Zhan, Zhiqin Chen, Soo Ye Kim, Nanxuan Zhao, Haitian Zheng, Qing Liu, He Zhang, Zhe Lin, Yuqian Zhou, Jiebo Luo
cs.AI
Resumen
Los recientes modelos de difusión de video han logrado avances notables en calidad visual, pero el control preciso y granular sigue siendo un cuello de botella clave que limita la personalización práctica para la creación de contenido. Para los creadores de video con IA, tres formas de control son cruciales: (i) composición de escenas, (ii) personalización de sujetos con consistencia multi-vista, y (iii) ajuste de pose de cámara o movimiento de objetos. Los métodos existentes generalmente manejan estas dimensiones de forma aislada, con soporte limitado para la síntesis de sujetos multi-vista y la preservación de identidad bajo cambios de pose arbitrarios. Esta falta de una arquitectura unificada dificulta la creación de video versátil y conjuntamente controlable. Presentamos Tri-Prompting, un marco unificado y paradigma de entrenamiento en dos etapas que integra composición de escenas, consistencia multi-vista de sujetos y control de movimiento. Nuestro enfoque aprovecha un módulo de movimiento de doble condición impulsado por puntos de seguimiento 3D para escenarios de fondo y claves RGB reducidas para sujetos en primer plano. Para garantizar un equilibrio entre controllabilidad y realismo visual, proponemos además una programación de escala ControlNet en inferencia. Tri-Prompting admite flujos de trabajo novedosos, incluyendo la inserción de sujetos con conciencia 3D en cualquier escena y la manipulación de sujetos existentes en una imagen. Los resultados experimentales demuestran que Tri-Prompting supera significativamente a líneas base especializadas como Phantom y DaS en identidad de sujetos multi-vista, consistencia 3D y precisión de movimiento.
English
Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.