FoundationMotion: Etichettatura Automatica e Ragionamento sul Movimento Spaziale nei Video
FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos
December 11, 2025
Autori: Yulu Gan, Ligeng Zhu, Dandan Shan, Baifeng Shi, Hongxu Yin, Boris Ivanovic, Song Han, Trevor Darrell, Jitendra Malik, Marco Pavone, Boyi Li
cs.AI
Abstract
La comprensione del movimento è fondamentale per il ragionamento fisico, poiché consente ai modelli di inferire le dinamiche e prevedere stati futuri. Tuttavia, i modelli all'avanguardia continuano a mostrare difficoltà nei recenti benchmark sul movimento, principalmente a causa della scarsità di dataset di movimento su larga scala e a grana fine. I dataset esistenti sono spesso costruiti tramite annotazione manuale costosa, limitandone gravemente la scalabilità. Per affrontare questa sfida, introduciamo FoundationMotion, una pipeline automatizzata per la creazione di dataset di movimento su larga scala. Il nostro approccio rileva e traccia prima gli oggetti nei video per estrarne le traiettorie, quindi sfrutta queste traiettorie e i fotogrammi video con Modelli Linguistici di Grande Dimensione (LLM) per generare descrizioni granulari e coppie domanda-risposta diversificate sul movimento e il ragionamento spaziale. Utilizzando dataset prodotti da questa pipeline, addestriamo modelli open-source come NVILA-Video-15B e Qwen2.5-7B, ottenendo miglioramenti sostanziali nella comprensione del movimento senza compromettere le prestazioni in altri compiti. Notevolmente, i nostri modelli superano baseline closed-source solide come Gemini-2.5 Flash e grandi modelli open-source come Qwen2.5-VL-72B su vari dataset e benchmark di comprensione del movimento. FoundationMotion fornisce quindi una soluzione scalabile per creare dataset di movimento granulari che consentono un effective fine-tuning di modelli diversificati, potenziandone le capacità di comprensione del movimento e ragionamento spaziale.
English
Motion understanding is fundamental to physical reasoning, enabling models to infer dynamics and predict future states. However, state-of-the-art models still struggle on recent motion benchmarks, primarily due to the scarcity of large-scale, fine-grained motion datasets. Existing motion datasets are often constructed from costly manual annotation, severely limiting scalability. To address this challenge, we introduce FoundationMotion, a fully automated data curation pipeline that constructs large-scale motion datasets. Our approach first detects and tracks objects in videos to extract their trajectories, then leverages these trajectories and video frames with Large Language Models (LLMs) to generate fine-grained captions and diverse question-answer pairs about motion and spatial reasoning. Using datasets produced by this pipeline, we fine-tune open-source models including NVILA-Video-15B and Qwen2.5-7B, achieving substantial improvements in motion understanding without compromising performance on other tasks. Notably, our models outperform strong closed-source baselines like Gemini-2.5 Flash and large open-source models such as Qwen2.5-VL-72B across diverse motion understanding datasets and benchmarks. FoundationMotion thus provides a scalable solution for curating fine-grained motion datasets that enable effective fine-tuning of diverse models to enhance motion understanding and spatial reasoning capabilities.