MolmoMotion : Prévision de trajectoires de points en 3D avec instruction langagière

Résumé

La prévision de mouvement est centrale pour l'intelligence visuelle : les agents doivent anticiper comment les objets vont se déplacer afin de planifier des actions, raisonner sur des interactions physiques et synthétiser des futurs réalistes. Nous soutenons que les points 3D en coordonnées mondiales fournissent une représentation générale qui est indépendante de la classe, stable en termes de vue, compacte et directement utile pour les tâches en aval. Nous formalisons la tâche de prévision de mouvement de points 3D conditionnée par un objectif : étant donné un court historique visuel, un ensemble de points de requête 3D sur un objet d'intérêt et une description linguistique de l'objectif visé, le modèle prédit la trajectoire 3D future de chaque point. Nous introduisons une pile complète pour étudier cette tâche à grande échelle : (1) MolmoMotion-1M est un vaste corpus de trajectoires de points 3D ancrées sur des objets et décrites par des actions, annotées à partir de 1,16 million de vidéos non contraintes ; (2) PointMotionBench est un benchmark vérifié par des humains couvrant 111 catégories d'objets et 61 types de mouvement ; et (3) MolmoMotion est un modèle général de prévision de mouvement qui prend en charge à la fois la prédiction de coordonnées autorégressive et la génération de trajectoires basée sur l'appariement de flux. MolmoMotion prédit avec précision divers schémas de mouvement avec différentes instructions linguistiques et surpasse significativement les lignes de base existantes de prédiction de mouvement sur PointMotionBench. Enfin, nous montrons que l'apriori de mouvement 3D appris se transfère bien aux applications en aval : il améliore l'efficacité de l'entraînement et la généralisation pour la manipulation robotique, et ses trajectoires prédites fournissent un guidage de mouvement efficace pour les modèles génératifs afin de synthétiser des vidéos avec un mouvement d'objet plus réaliste.

English

Motion forecasting is central to visual intelligence: agents must anticipate how objects will move in order to plan actions, reason about physical interactions, and synthesize realistic futures. We argue that 3D points in world coordinates provide a general representation that is class-agnostic, view-stable, compact, and directly useful for downstream tasks. We formalize the task of goal-conditioned 3D point motion forecasting: given a short visual history, a set of 3D query points on an object of interest, and a language description of the intended goal, the model predicts the future 3D trajectory of each point. We introduce a full stack to study this task at scale: (1) MolmoMotion-1M is a large corpus of action-described, object-grounded 3D point trajectories annotated from 1.16M unconstrained videos; (2) PointMotionBench is a human-verified benchmark spanning 111 object categories and 61 motion types; and (3) MolmoMotion is a general motion forecasting model that supports both autoregressive coordinate prediction and flow-matching-based trajectory generation. MolmoMotion accurately predicts diverse motion patterns with different language instructions, and significantly outperforms existing motion prediction baselines on PointMotionBench. Finally, we show that the learned 3D motion prior transfers well to downstream applications: it improves training efficiency and generalization for robot manipulation, and its predicted trajectories provide effective motion guidance for generative models to synthesize videos with more realistic object motion.