MolmoMotion: Previsão de Trajetórias de Pontos em 3D com Instrução por Linguagem

Resumo

A previsão de movimento é central para a inteligência visual: agentes devem antecipar como objetos se moverão para planejar ações, raciocinar sobre interações físicas e sintetizar futuros realistas. Argumentamos que pontos 3D em coordenadas mundiais fornecem uma representação geral que é agnóstica a classes, estável a visões, compacta e diretamente útil para tarefas subsequentes. Formalizamos a tarefa de previsão de movimento de pontos 3D condicionada a objetivos: dada uma breve história visual, um conjunto de pontos de consulta 3D sobre um objeto de interesse e uma descrição em linguagem natural do objetivo pretendido, o modelo prevê a trajetória 3D futura de cada ponto. Introduzimos uma pilha completa para estudar essa tarefa em escala: (1) MolmoMotion-1M é um grande corpus de trajetórias de pontos 3D descritas por ações, fundamentadas em objetos, anotadas a partir de 1,16M de vídeos sem restrições; (2) PointMotionBench é um referencial de avaliação verificado por humanos, abrangendo 111 categorias de objetos e 61 tipos de movimento; e (3) MolmoMotion é um modelo geral de previsão de movimento que suporta tanto a previsão autoregressiva de coordenadas quanto a geração de trajetórias baseada em fluxo-matching. O MolmoMotion prevê com precisão diversos padrões de movimento com diferentes instruções em linguagem natural e supera significativamente as linhas de base existentes de previsão de movimento no PointMotionBench. Finalmente, mostramos que o prior de movimento 3D aprendido transfere-se bem para aplicações subsequentes: ele melhora a eficiência do treinamento e a generalização para manipulação robótica, e suas trajetórias previstas fornecem orientação de movimento eficaz para modelos generativos sintetizarem vídeos com movimento de objetos mais realista.

English

Motion forecasting is central to visual intelligence: agents must anticipate how objects will move in order to plan actions, reason about physical interactions, and synthesize realistic futures. We argue that 3D points in world coordinates provide a general representation that is class-agnostic, view-stable, compact, and directly useful for downstream tasks. We formalize the task of goal-conditioned 3D point motion forecasting: given a short visual history, a set of 3D query points on an object of interest, and a language description of the intended goal, the model predicts the future 3D trajectory of each point. We introduce a full stack to study this task at scale: (1) MolmoMotion-1M is a large corpus of action-described, object-grounded 3D point trajectories annotated from 1.16M unconstrained videos; (2) PointMotionBench is a human-verified benchmark spanning 111 object categories and 61 motion types; and (3) MolmoMotion is a general motion forecasting model that supports both autoregressive coordinate prediction and flow-matching-based trajectory generation. MolmoMotion accurately predicts diverse motion patterns with different language instructions, and significantly outperforms existing motion prediction baselines on PointMotionBench. Finally, we show that the learned 3D motion prior transfers well to downstream applications: it improves training efficiency and generalization for robot manipulation, and its predicted trajectories provide effective motion guidance for generative models to synthesize videos with more realistic object motion.