Tri-Prompting: Videodiffusion mit vereinheitlichter Kontrolle über Szene, Subjekt und Bewegung
Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion
March 16, 2026
Autoren: Zhenghong Zhou, Xiaohang Zhan, Zhiqin Chen, Soo Ye Kim, Nanxuan Zhao, Haitian Zheng, Qing Liu, He Zhang, Zhe Lin, Yuqian Zhou, Jiebo Luo
cs.AI
Zusammenfassung
Aktuelle Video-Diffusionsmodelle haben bemerkenswerte Fortschritte in der visuellen Qualität erzielt, doch eine präzise, fein abgestufte Steuerung bleibt ein zentraler Engpass, der die praktische Anpassbarkeit für die Inhaltserstellung einschränkt. Für KI-Videocreators sind drei Steuerungsformen entscheidend: (i) Szenenkomposition, (ii) multi-view-konsistente Subjektanpassung und (iii) Kameraposen- oder Objektbewegungsanpassung. Bestehende Methoden behandeln diese Dimensionen typischerweise isoliert, mit begrenzter Unterstützung für Multi-View-Subjektsynthese und Identitätserhaltung unter beliebigen Pose-Änderungen. Dieser Mangel an einer einheitlichen Architektur erschwert die Unterstützung von vielseitigen, gemeinsam steuerbaren Videos. Wir stellen Tri-Prompting vor, ein einheitliches Framework und Zwei-Stufen-Trainingsparadigma, das Szenenkomposition, Multi-View-Subjektkonsistenz und Bewegungssteuerung integriert. Unser Ansatz nutzt ein Dual-Condition-Bewegungsmodul, das von 3D-Tracking-Punkten für Hintergrundszenen und heruntergerechneten RGB-Cues für Vordergrundsubjekte angetrieben wird. Um ein Gleichgewicht zwischen Steuerbarkeit und visueller Realitätstreue zu gewährleisten, schlagen wir weiterhin einen Inferenz-ControlNet-Skalenplan vor. Tri-Prompting unterstützt neuartige Workflows, einschließlich 3D-bewusster Subjekteinfügung in beliebige Szenen und Manipulation bestehender Subjekte in einem Bild. Experimentelle Ergebnisse zeigen, dass Tri-Prompting spezialisierte Baseline-Methoden wie Phantom und DaS in Bezug auf Multi-View-Subjektidentität, 3D-Konsistenz und Bewegungsgenauigkeit signifikant übertrifft.
English
Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.