Tri-Prompting: Videodiffusie met Geünificeerde Controle over Scène, Onderwerp en Beweging

Samenvatting

Recente videodiffusiemodellen hebben opmerkelijke vooruitgang geboekt in visuele kwaliteit, maar precieze, fijnmazige controle blijft een belangrijk knelpunt dat de praktische aanpasbaarheid voor contentcreatie beperkt. Voor AI-videomakers zijn drie vormen van controle cruciaal: (i) scènesamenstelling, (ii) onderwerpaanpassing met consistentie vanuit meerdere gezichtspunten, en (iii) aanpassing van camerastandpunten of objectbeweging. Bestaande methoden behandelen deze dimensies doorgaans geïsoleerd, met beperkte ondersteuning voor synthesen van onderwerpen vanuit meerdere hoeken en identiteitsbehoud bij willekeurige poseveranderingen. Dit gebrek aan een uniforme architectuur maakt het lastig om veelzijdige, gezamenlijk bestuurbare video te ondersteunen. Wij introduceren Tri-Prompting, een uniform raamwerk en tweefasentrainingsparadigma dat scènesamenstelling, consistentie van onderwerpen vanuit meerdere gezichtspunten en bewegingscontrole integreert. Onze aanpak benut een dual-condition bewegingsmodule aangedreven door 3D-volgpunten voor achtergrondscènes en gedownsamplede RGB-signalen voor voorgrondonderwerpen. Om een balans tussen bestuurbaarheid en visuele realiteit te garanderen, stellen we verder een inference ControlNet-schaalplan voor. Tri-Prompting ondersteunt nieuwe workflows, waaronder 3D-bewuste invoeging van onderwerpen in willekeurige scènes en manipulatie van bestaande onderwerpen in een afbeelding. Experimentele resultaten tonen aan dat Tri-Prompting gespecialiseerde basislijnen zoals Phantom en DaS significant overtreft op het gebied van onderwerpidentiteit vanuit meerdere gezichtspunten, 3D-consistentie en bewegingsnauwkeurigheid.

English

Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.

Tri-Prompting: Videodiffusie met Geünificeerde Controle over Scène, Onderwerp en Beweging

Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

Samenvatting

Support