ChatPaper.aiChatPaper

FoundationMotion: Automatisch Labelen en Redeneren over Ruimtelijke Beweging in Video's

FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos

December 11, 2025
Auteurs: Yulu Gan, Ligeng Zhu, Dandan Shan, Baifeng Shi, Hongxu Yin, Boris Ivanovic, Song Han, Trevor Darrell, Jitendra Malik, Marco Pavone, Boyi Li
cs.AI

Samenvatting

Bewegingsbegrip is fundamenteel voor fysiek redeneren, omdat het modellen in staat stelt dynamiek af te leiden en toekomstige toestanden te voorspellen. State-of-the-art modellen presteren echter nog steeds ondermaats op recente bewegingsbenchmarks, voornamelijk door een gebrek aan grootschalige, fijnmazige bewegingsdatasets. Bestaande bewegingsdatasets worden vaak samengesteld via kostbare handmatige annotatie, wat de schaalbaarheid ernstig beperkt. Om deze uitdaging aan te pakken, introduceren wij FoundationMotion, een volledig geautomatiseerde pijplijn voor datacuratie die grootschalige bewegingsdatasets construeert. Onze aanpak detecteert en volgt eerst objecten in video's om hun trajecten te extraheren, en benut vervolgens deze trajecten en videoframes met Large Language Models (LLM's) om fijnmazige bijschriften en diverse vraag-antwoordparen over beweging en ruimtelijk redeneren te genereren. Met datasets die door deze pijplijn zijn geproduceerd, fine-tunen we open-source modellen, waaronder NVILA-Video-15B en Qwen2.5-7B, wat aanzienlijke verbeteringen in bewegingsbegrip oplevert zonder prestaties op andere taken aan te tasten. Opmerkelijk is dat onze modellen sterke closed-source baseline-modellen zoals Gemini-2.5 Flash en grote open-source modellen zoals Qwen2.5-VL-72B overtreffen op diverse datasets en benchmarks voor bewegingsbegrip. FoundationMotion biedt dus een schaalbare oplossing voor het samenstellen van fijnmazige bewegingsdatasets die effectieve fine-tuning van diverse modellen mogelijk maken om bewegingsbegrip en ruimtelijk redeneervermogen te verbeteren.
English
Motion understanding is fundamental to physical reasoning, enabling models to infer dynamics and predict future states. However, state-of-the-art models still struggle on recent motion benchmarks, primarily due to the scarcity of large-scale, fine-grained motion datasets. Existing motion datasets are often constructed from costly manual annotation, severely limiting scalability. To address this challenge, we introduce FoundationMotion, a fully automated data curation pipeline that constructs large-scale motion datasets. Our approach first detects and tracks objects in videos to extract their trajectories, then leverages these trajectories and video frames with Large Language Models (LLMs) to generate fine-grained captions and diverse question-answer pairs about motion and spatial reasoning. Using datasets produced by this pipeline, we fine-tune open-source models including NVILA-Video-15B and Qwen2.5-7B, achieving substantial improvements in motion understanding without compromising performance on other tasks. Notably, our models outperform strong closed-source baselines like Gemini-2.5 Flash and large open-source models such as Qwen2.5-VL-72B across diverse motion understanding datasets and benchmarks. FoundationMotion thus provides a scalable solution for curating fine-grained motion datasets that enable effective fine-tuning of diverse models to enhance motion understanding and spatial reasoning capabilities.
PDF32December 22, 2025