MolmoMotion: Predicción de trayectorias de puntos en 3D mediante instrucciones de lenguaje

Resumen

La predicción de movimiento es central para la inteligencia visual: los agentes deben anticipar cómo se moverán los objetos para planificar acciones, razonar sobre interacciones físicas y sintetizar futuros realistas. Sostenemos que los puntos 3D en coordenadas del mundo proporcionan una representación general que es independiente de la clase, estable ante cambios de vista, compacta y directamente útil para tareas posteriores. Formalizamos la tarea de predicción de movimiento de puntos 3D condicionada por objetivos: dada una breve historia visual, un conjunto de puntos de consulta 3D sobre un objeto de interés y una descripción en lenguaje del objetivo previsto, el modelo predice la trayectoria 3D futura de cada punto. Presentamos un conjunto completo para estudiar esta tarea a escala: (1) MolmoMotion-1M es un corpus amplio de trayectorias de puntos 3D ancladas en objetos y descritas mediante acciones, anotado a partir de 1,16 millones de videos sin restricciones; (2) PointMotionBench es un punto de referencia verificado por humanos que abarca 111 categorías de objetos y 61 tipos de movimiento; y (3) MolmoMotion es un modelo general de predicción de movimiento que admite tanto la predicción autorregresiva de coordenadas como la generación de trayectorias basada en coincidencia de flujo. MolmoMotion predice con precisión diversos patrones de movimiento con diferentes instrucciones en lenguaje, y supera significativamente a los modelos de predicción de movimiento existentes en PointMotionBench. Finalmente, mostramos que el prior de movimiento 3D aprendido se transfiere bien a aplicaciones posteriores: mejora la eficiencia de entrenamiento y la generalización en manipulación robótica, y sus trayectorias predichas proporcionan una guía de movimiento efectiva para que los modelos generativos sinteticen videos con movimientos de objetos más realistas.

English

Motion forecasting is central to visual intelligence: agents must anticipate how objects will move in order to plan actions, reason about physical interactions, and synthesize realistic futures. We argue that 3D points in world coordinates provide a general representation that is class-agnostic, view-stable, compact, and directly useful for downstream tasks. We formalize the task of goal-conditioned 3D point motion forecasting: given a short visual history, a set of 3D query points on an object of interest, and a language description of the intended goal, the model predicts the future 3D trajectory of each point. We introduce a full stack to study this task at scale: (1) MolmoMotion-1M is a large corpus of action-described, object-grounded 3D point trajectories annotated from 1.16M unconstrained videos; (2) PointMotionBench is a human-verified benchmark spanning 111 object categories and 61 motion types; and (3) MolmoMotion is a general motion forecasting model that supports both autoregressive coordinate prediction and flow-matching-based trajectory generation. MolmoMotion accurately predicts diverse motion patterns with different language instructions, and significantly outperforms existing motion prediction baselines on PointMotionBench. Finally, we show that the learned 3D motion prior transfers well to downstream applications: it improves training efficiency and generalization for robot manipulation, and its predicted trajectories provide effective motion guidance for generative models to synthesize videos with more realistic object motion.