MoRight : Le contrôle du mouvement, enfin maîtrisé

Résumé

La génération de vidéos contrôlées par le mouvement – où des actions spécifiées par l'utilisateur animent une dynamique de scène physiquement plausible sous des angles de vue librement choisis – nécessite deux capacités : (1) un contrôle du mouvement désentrelacé, permettant aux utilisateurs de contrôler séparément le mouvement de l'objet et d'ajuster l'angle de vue de la caméra ; et (2) une causalité du mouvement, garantissant que les actions pilotées par l'utilisateur déclenchent des réactions cohérentes des autres objets plutôt que de simplement déplacer des pixels. Les méthodes existantes échouent sur les deux fronts : elles entremêlent le mouvement de la caméra et celui de l'objet en un seul signal de suivi et traitent le mouvement comme un déplacement cinématique sans modéliser les relations causales entre les mouvements des objets. Nous présentons MoRight, un cadre unifié qui résout ces deux limitations grâce à une modélisation désentrelacée du mouvement. Le mouvement de l'objet est spécifié dans une vue canonique statique et transféré vers un angle de vue cible arbitraire via une attention temporelle inter-vues, permettant un contrôle désentrelacé de la caméra et de l'objet. Nous décomposons en outre le mouvement en composantes active (pilotée par l'utilisateur) et passive (conséquence), en entraînant le modèle à apprendre la causalité du mouvement à partir des données. Lors de l'inférence, les utilisateurs peuvent soit fournir un mouvement actif et MoRight prédit les conséquences (raisonnement direct), soit spécifier des résultats passifs souhaités et MoRight retrouve les actions motrices plausibles (raisonnement inverse), le tout en ajustant librement l'angle de vue de la caméra. Les expériences sur trois benchmarks démontrent des performances de pointe en termes de qualité de génération, de contrôlabilité du mouvement et de conscience des interactions.

English

Generating motion-controlled videos--where user-specified actions drive physically plausible scene dynamics under freely chosen viewpoints--demands two capabilities: (1) disentangled motion control, allowing users to separately control the object motion and adjust camera viewpoint; and (2) motion causality, ensuring that user-driven actions trigger coherent reactions from other objects rather than merely displacing pixels. Existing methods fall short on both fronts: they entangle camera and object motion into a single tracking signal and treat motion as kinematic displacement without modeling causal relationships between object motion. We introduce MoRight, a unified framework that addresses both limitations through disentangled motion modeling. Object motion is specified in a canonical static-view and transferred to an arbitrary target camera viewpoint via temporal cross-view attention, enabling disentangled camera and object control. We further decompose motion into active (user-driven) and passive (consequence) components, training the model to learn motion causality from data. At inference, users can either supply active motion and MoRight predicts consequences (forward reasoning), or specify desired passive outcomes and MoRight recovers plausible driving actions (inverse reasoning), all while freely adjusting the camera viewpoint. Experiments on three benchmarks demonstrate state-of-the-art performance in generation quality, motion controllability, and interaction awareness.

MoRight : Le contrôle du mouvement, enfin maîtrisé

MoRight: Motion Control Done Right

Résumé

Support