FoundationMotion: Автоматическое аннотирование и анализ пространственного движения на видео
FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos
December 11, 2025
Авторы: Yulu Gan, Ligeng Zhu, Dandan Shan, Baifeng Shi, Hongxu Yin, Boris Ivanovic, Song Han, Trevor Darrell, Jitendra Malik, Marco Pavone, Boyi Li
cs.AI
Аннотация
Понимание движения является основой физического мышления, позволяя моделям выводить динамику и предсказывать будущие состояния. Однако современные модели по-прежнему демонстрируют низкие результаты на новых бенчмарках движения, в первую очередь из-за нехватки крупномасштабных наборов данных с детализированной разметкой движения. Существующие наборы данных о движении часто создаются с помощью дорогостоящей ручной разметки, что серьезно ограничивает их масштабируемость. Для решения этой проблемы мы представляем FoundationMotion — полностью автоматизированный конвейер курации данных, который создает крупномасштабные наборы данных о движении. Наш подход сначала обнаруживает и отслеживает объекты на видео для извлечения их траекторий, а затем использует эти траектории и видеокадры вместе с большими языковыми моделями (LLM) для генерации детализированных описаний и разнообразных вопросно-ответных пар о движении и пространственном мышлении. Используя наборы данных, созданные этим конвейером, мы дообучаем модели с открытым исходным кодом, включая NVILA-Video-15B и Qwen2.5-7B, достигая значительного улучшения понимания движения без ухудшения производительности на других задачах. Примечательно, что наши модели превосходят сильные закрытые базовые модели, такие как Gemini-2.5 Flash, и крупные модели с открытым исходным кодом, такие как Qwen2.5-VL-72B, на различных наборах данных и бенчмарках для понимания движения. Таким образом, FoundationMotion предоставляет масштабируемое решение для курации детализированных наборов данных о движении, которые позволяют эффективно дообучать разнообразные модели для улучшения возможностей понимания движения и пространственного мышления.
English
Motion understanding is fundamental to physical reasoning, enabling models to infer dynamics and predict future states. However, state-of-the-art models still struggle on recent motion benchmarks, primarily due to the scarcity of large-scale, fine-grained motion datasets. Existing motion datasets are often constructed from costly manual annotation, severely limiting scalability. To address this challenge, we introduce FoundationMotion, a fully automated data curation pipeline that constructs large-scale motion datasets. Our approach first detects and tracks objects in videos to extract their trajectories, then leverages these trajectories and video frames with Large Language Models (LLMs) to generate fine-grained captions and diverse question-answer pairs about motion and spatial reasoning. Using datasets produced by this pipeline, we fine-tune open-source models including NVILA-Video-15B and Qwen2.5-7B, achieving substantial improvements in motion understanding without compromising performance on other tasks. Notably, our models outperform strong closed-source baselines like Gemini-2.5 Flash and large open-source models such as Qwen2.5-VL-72B across diverse motion understanding datasets and benchmarks. FoundationMotion thus provides a scalable solution for curating fine-grained motion datasets that enable effective fine-tuning of diverse models to enhance motion understanding and spatial reasoning capabilities.