MoRight: Controllo del Movimento Fatto Bene

Abstract

La generazione di video a controllo del movimento - in cui azioni specificate dall'utente guidano dinamiche di scena fisicamente plausibili da punti di vista liberamente scelti - richiede due capacità: (1) controllo del movimento disaccoppiato, che permette agli utenti di controllare separatamente il moto dell'oggetto e regolare il punto di vista della telecamera; e (2) causalità del movimento, garantendo che le azioni guidate dall'utente inneschino reazioni coerenti da parte di altri oggetti, invece di limitarsi a spostare i pixel. I metodi esistenti sono carenti su entrambi i fronti: essi intrecciano il movimento della telecamera e dell'oggetto in un unico segnale di tracciamento e trattano il movimento come uno spostamento cinematico senza modellare le relazioni causali tra i moti degli oggetti. Introduciamo MoRight, un framework unificato che affronta entrambe le limitazioni attraverso una modellazione del movimento disaccoppiata. Il moto dell'oggetto è specificato in una vista canonica statica e trasferito a un punto di vista target arbitrario della telecamera tramite un meccanismo di attenzione temporale incrociata tra le viste, consentendo un controllo disaccoppiato di telecamera e oggetto. Scomponiamo ulteriormente il movimento in componenti attive (guidate dall'utente) e passive (conseguenza), addestrando il modello ad apprendere la causalità del movimento dai dati. In fase di inferenza, gli utenti possono fornire il movimento attivo e MoRight ne prevede le conseguenze (ragionamento in avanti), oppure specificare gli esiti passivi desiderati e MoRight ricostruisce le azioni motrici plausibili (ragionamento inverso), il tutto mentre si regola liberamente il punto di vista della telecamera. Esperimenti su tre benchmark dimostrano prestazioni allo stato dell'arte nella qualità della generazione, nella controllabilità del movimento e nella consapevolezza delle interazioni.

English

Generating motion-controlled videos--where user-specified actions drive physically plausible scene dynamics under freely chosen viewpoints--demands two capabilities: (1) disentangled motion control, allowing users to separately control the object motion and adjust camera viewpoint; and (2) motion causality, ensuring that user-driven actions trigger coherent reactions from other objects rather than merely displacing pixels. Existing methods fall short on both fronts: they entangle camera and object motion into a single tracking signal and treat motion as kinematic displacement without modeling causal relationships between object motion. We introduce MoRight, a unified framework that addresses both limitations through disentangled motion modeling. Object motion is specified in a canonical static-view and transferred to an arbitrary target camera viewpoint via temporal cross-view attention, enabling disentangled camera and object control. We further decompose motion into active (user-driven) and passive (consequence) components, training the model to learn motion causality from data. At inference, users can either supply active motion and MoRight predicts consequences (forward reasoning), or specify desired passive outcomes and MoRight recovers plausible driving actions (inverse reasoning), all while freely adjusting the camera viewpoint. Experiments on three benchmarks demonstrate state-of-the-art performance in generation quality, motion controllability, and interaction awareness.

MoRight: Controllo del Movimento Fatto Bene

MoRight: Motion Control Done Right

Abstract

Support