Tri-Prompting: Diffusione Video con Controllo Unificato su Scena, Soggetto e Movimento

Abstract

I recenti modelli di diffusione video hanno compiuto progressi straordinari nella qualità visiva, ma un controllo preciso e granulare rimane un collo di bottiglia fondamentale che limita la personalizzazione pratica per la creazione di contenuti. Per i creatori di video IA, tre forme di controllo sono cruciali: (i) composizione della scena, (ii) personalizzazione coerente del soggetto multi-vista, e (iii) regolazione della posa della telecamera o del movimento dell'oggetto. I metodi esistenti tipicamente gestiscono queste dimensioni in modo isolato, con un supporto limitato per la sintesi di soggetti multi-vista e la preservazione dell'identità sotto cambiamenti di posa arbitrari. Questa mancanza di un'architettura unificata rende difficile supportare video versatile e congiuntamente controllabile. Introduciamo Tri-Prompting, un framework unificato e un paradigma di addestramento a due stadi che integra composizione della scena, coerenza del soggetto multi-vista e controllo del movimento. Il nostro approccio sfrutta un modulo di movimento a doppia condizione guidato da punti di tracciamento 3D per le scene di sfondo e suggerimenti RGB sottocampionati per i soggetti in primo piano. Per garantire un equilibrio tra controllabilità e realismo visivo, proponiamo inoltre una pianificazione della scala ControlNet per l'inferenza. Tri-Prompting supporta nuovi flussi di lavoro, inclusi l'inserimento di soggetti con consapevolezza 3D in scene qualsiasi e la manipolazione di soggetti esistenti in un'immagine. I risultati sperimentali dimostrano che Tri-Prompting supera significativamente baseline specializzate come Phantom e DaS nell'identità del soggetto multi-vista, nella coerenza 3D e nell'accuratezza del movimento.

English

Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.

Tri-Prompting: Diffusione Video con Controllo Unificato su Scena, Soggetto e Movimento

Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

Abstract

Support