ChatPaper.aiChatPaper

FoundationMotion : Étiquetage automatique et raisonnement sur le mouvement spatial dans les vidéos

FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos

December 11, 2025
papers.authors: Yulu Gan, Ligeng Zhu, Dandan Shan, Baifeng Shi, Hongxu Yin, Boris Ivanovic, Song Han, Trevor Darrell, Jitendra Malik, Marco Pavone, Boyi Li
cs.AI

papers.abstract

La compréhension du mouvement est fondamentale pour le raisonnement physique, permettant aux modèles d'inférer la dynamique et de prédire les états futurs. Cependant, les modèles de pointe peinent encore sur les benchmarks récents de mouvement, principalement en raison de la rareté des jeux de données de mouvement à grande échelle et à granularité fine. Les jeux de données existants sont souvent construits à partir d'annotations manuelles coûteuses, limitant considérablement leur évolutivité. Pour relever ce défi, nous présentons FoundationMotion, un pipeline de curation de données entièrement automatisé qui construit des jeux de données de mouvement à grande échelle. Notre approche détecte et suit d'abord les objets dans les vidéos pour extraire leurs trajectoires, puis exploite ces trajectoires et les images vidéo avec des modèles de langage de grande taille (LLM) pour générer des descriptions granulaires et des paires question-réponse diverses sur le raisonnement motionnel et spatial. En utilisant les jeux de données produits par ce pipeline, nous affinons des modèles open-source, notamment NVILA-Video-15B et Qwen2.5-7B, obtenant des améliorations substantielles dans la compréhension du mouvement sans compromettre les performances sur d'autres tâches. Notamment, nos modèles surpassent des bases de référence fermées solides comme Gemini-2.5 Flash et de grands modèles open-source tels que Qwen2.5-VL-72B sur divers jeux de données et benchmarks de compréhension du mouvement. FoundationMotion offre ainsi une solution évolutive pour curer des jeux de données de mouvement granulaires qui permettent un réglage fin efficace de modèles diversifiés pour améliorer les capacités de compréhension du mouvement et de raisonnement spatial.
English
Motion understanding is fundamental to physical reasoning, enabling models to infer dynamics and predict future states. However, state-of-the-art models still struggle on recent motion benchmarks, primarily due to the scarcity of large-scale, fine-grained motion datasets. Existing motion datasets are often constructed from costly manual annotation, severely limiting scalability. To address this challenge, we introduce FoundationMotion, a fully automated data curation pipeline that constructs large-scale motion datasets. Our approach first detects and tracks objects in videos to extract their trajectories, then leverages these trajectories and video frames with Large Language Models (LLMs) to generate fine-grained captions and diverse question-answer pairs about motion and spatial reasoning. Using datasets produced by this pipeline, we fine-tune open-source models including NVILA-Video-15B and Qwen2.5-7B, achieving substantial improvements in motion understanding without compromising performance on other tasks. Notably, our models outperform strong closed-source baselines like Gemini-2.5 Flash and large open-source models such as Qwen2.5-VL-72B across diverse motion understanding datasets and benchmarks. FoundationMotion thus provides a scalable solution for curating fine-grained motion datasets that enable effective fine-tuning of diverse models to enhance motion understanding and spatial reasoning capabilities.
PDF22December 17, 2025