ChatPaper.aiChatPaper

FoundationMotion: 動画内の空間的動作の自動ラベリングと推論

FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos

December 11, 2025
著者: Yulu Gan, Ligeng Zhu, Dandan Shan, Baifeng Shi, Hongxu Yin, Boris Ivanovic, Song Han, Trevor Darrell, Jitendra Malik, Marco Pavone, Boyi Li
cs.AI

要旨

運動理解は物理推論の基盤であり、モデルが力学を推論し未来の状態を予測することを可能とします。しかし、最先端のモデルでも最近の運動ベンチマークでは依然として苦戦しており、主な要因は大規模で細粒度な運動データセットの不足にあります。既存の運動データセットは高コストな手動アノテーションによって構築されることが多く、拡張性が大きく制限されています。この課題に対処するため、我々は大規模運動データセットを構築する完全自動化されたデータキュレーションパイプライン「FoundationMotion」を提案します。本手法では、まず動画内の物体を検出・追跡して軌跡を抽出し、これらの軌跡と動画フレームを大規模言語モデル(LLM)と組み合わせることで、運動と空間推論に関する細粒度なキャプションと多様な質問応答ペアを生成します。このパイプラインで生成されたデータセットを用いて、NVILA-Video-15BやQwen2.5-7Bなどのオープンソースモデルをファインチューニングした結果、他のタスクの性能を損なうことなく運動理解が大幅に向上しました。特に、当該モデルはGemini-2.5 Flashのような強力なクローズドソースベースラインやQwen2.5-VL-72Bのような大規模オープンソースモデルを、多様な運動理解データセットおよびベンチマークで凌駕する性能を示しました。FoundationMotionは thus、効果的なモデルファインチューニングを可能にする細粒度運動データセットのキュレーションに対する拡張性のあるソリューションを提供し、運動理解と空間推論能力の強化に寄与します。
English
Motion understanding is fundamental to physical reasoning, enabling models to infer dynamics and predict future states. However, state-of-the-art models still struggle on recent motion benchmarks, primarily due to the scarcity of large-scale, fine-grained motion datasets. Existing motion datasets are often constructed from costly manual annotation, severely limiting scalability. To address this challenge, we introduce FoundationMotion, a fully automated data curation pipeline that constructs large-scale motion datasets. Our approach first detects and tracks objects in videos to extract their trajectories, then leverages these trajectories and video frames with Large Language Models (LLMs) to generate fine-grained captions and diverse question-answer pairs about motion and spatial reasoning. Using datasets produced by this pipeline, we fine-tune open-source models including NVILA-Video-15B and Qwen2.5-7B, achieving substantial improvements in motion understanding without compromising performance on other tasks. Notably, our models outperform strong closed-source baselines like Gemini-2.5 Flash and large open-source models such as Qwen2.5-VL-72B across diverse motion understanding datasets and benchmarks. FoundationMotion thus provides a scalable solution for curating fine-grained motion datasets that enable effective fine-tuning of diverse models to enhance motion understanding and spatial reasoning capabilities.
PDF22December 17, 2025