FoundationMotion: Etiquetado Automático y Razonamiento sobre Movimiento Espacial en Videos
FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos
December 11, 2025
Autores: Yulu Gan, Ligeng Zhu, Dandan Shan, Baifeng Shi, Hongxu Yin, Boris Ivanovic, Song Han, Trevor Darrell, Jitendra Malik, Marco Pavone, Boyi Li
cs.AI
Resumen
La comprensión del movimiento es fundamental para el razonamiento físico, permitiendo a los modelos inferir dinámicas y predecir estados futuros. Sin embargo, los modelos de vanguardia aún presentan dificultades en los benchmarks recientes de movimiento, principalmente debido a la escasez de conjuntos de datos de movimiento a gran escala y de grano fino. Los conjuntos de datos de movimiento existentes a menudo se construyen mediante costosas anotaciones manuales, lo que limita severamente su escalabilidad. Para abordar este desafío, presentamos FoundationMotion, una canalización de curación de datos completamente automatizada que construye conjuntos de datos de movimiento a gran escala. Nuestro enfoque detecta y rastrea primero objetos en videos para extraer sus trayectorias, luego aprovecha estas trayectorias y los fotogramas de video con Modelos de Lenguaje Grande (LLMs) para generar descripciones detalladas y diversos pares de preguntas y respuestas sobre movimiento y razonamiento espacial. Utilizando conjuntos de datos producidos por esta canalización, afinamos modelos de código abierto, incluyendo NVILA-Video-15B y Qwen2.5-7B, logrando mejoras sustanciales en la comprensión del movimiento sin comprometer el rendimiento en otras tareas. Notablemente, nuestros modelos superan a fuentes de referencia de código cerrado como Gemini-2.5 Flash y a grandes modelos de código abierto como Qwen2.5-VL-72B en diversos conjuntos de datos y benchmarks de comprensión del movimiento. Por lo tanto, FoundationMotion proporciona una solución escalable para curar conjuntos de datos de movimiento de grano fino que permiten el ajuste fino efectivo de diversos modelos para mejorar las capacidades de comprensión del movimiento y razonamiento espacial.
English
Motion understanding is fundamental to physical reasoning, enabling models to infer dynamics and predict future states. However, state-of-the-art models still struggle on recent motion benchmarks, primarily due to the scarcity of large-scale, fine-grained motion datasets. Existing motion datasets are often constructed from costly manual annotation, severely limiting scalability. To address this challenge, we introduce FoundationMotion, a fully automated data curation pipeline that constructs large-scale motion datasets. Our approach first detects and tracks objects in videos to extract their trajectories, then leverages these trajectories and video frames with Large Language Models (LLMs) to generate fine-grained captions and diverse question-answer pairs about motion and spatial reasoning. Using datasets produced by this pipeline, we fine-tune open-source models including NVILA-Video-15B and Qwen2.5-7B, achieving substantial improvements in motion understanding without compromising performance on other tasks. Notably, our models outperform strong closed-source baselines like Gemini-2.5 Flash and large open-source models such as Qwen2.5-VL-72B across diverse motion understanding datasets and benchmarks. FoundationMotion thus provides a scalable solution for curating fine-grained motion datasets that enable effective fine-tuning of diverse models to enhance motion understanding and spatial reasoning capabilities.