FoundationMotion: Rotulagem Automática e Raciocínio sobre Movimento Espacial em Vídeos

Resumo

A compreensão do movimento é fundamental para o raciocínio físico, permitindo que modelos infiram dinâmicas e prevejam estados futuros. No entanto, os modelos de última geração ainda apresentam dificuldades em benchmarks recentes de movimento, principalmente devido à escassez de conjuntos de dados de movimento em larga escala e com granularidade fina. Os conjuntos de dados de movimento existentes são frequentemente construídos a partir de anotações manuais dispendiosas, limitando severamente a escalabilidade. Para enfrentar este desafio, apresentamos o FoundationMotion, um pipeline automatizado de curadoria de dados que constrói conjuntos de dados de movimento em larga escala. Nossa abordagem primeiro detecta e rastreia objetos em vídeos para extrair suas trajetórias, depois aproveita essas trajetórias e os quadros de vídeo com Modelos de Linguagem de Grande Escala (LLMs) para gerar legendas de granularidade fina e diversos pares de pergunta-resposta sobre movimento e raciocínio espacial. Utilizando conjuntos de dados produzidos por este pipeline, realizamos o fine-tuning de modelos de código aberto, incluindo NVILA-Video-15B e Qwen2.5-7B, alcançando melhorias substanciais na compreensão de movimento sem comprometer o desempenho em outras tarefas. Notavelmente, nossos modelos superam fortes baselines de código fechado, como o Gemini-2.5 Flash, e grandes modelos de código aberto, como o Qwen2.5-VL-72B, em diversos conjuntos de dados e benchmarks de compreensão de movimento. O FoundationMotion oferece, portanto, uma solução escalável para a curadoria de conjuntos de dados de movimento com granularidade fina, que permitem o fine-tuning eficaz de diversos modelos para aprimorar as capacidades de compreensão de movimento e raciocínio espacial.

English

Motion understanding is fundamental to physical reasoning, enabling models to infer dynamics and predict future states. However, state-of-the-art models still struggle on recent motion benchmarks, primarily due to the scarcity of large-scale, fine-grained motion datasets. Existing motion datasets are often constructed from costly manual annotation, severely limiting scalability. To address this challenge, we introduce FoundationMotion, a fully automated data curation pipeline that constructs large-scale motion datasets. Our approach first detects and tracks objects in videos to extract their trajectories, then leverages these trajectories and video frames with Large Language Models (LLMs) to generate fine-grained captions and diverse question-answer pairs about motion and spatial reasoning. Using datasets produced by this pipeline, we fine-tune open-source models including NVILA-Video-15B and Qwen2.5-7B, achieving substantial improvements in motion understanding without compromising performance on other tasks. Notably, our models outperform strong closed-source baselines like Gemini-2.5 Flash and large open-source models such as Qwen2.5-VL-72B across diverse motion understanding datasets and benchmarks. FoundationMotion thus provides a scalable solution for curating fine-grained motion datasets that enable effective fine-tuning of diverse models to enhance motion understanding and spatial reasoning capabilities.

FoundationMotion: Rotulagem Automática e Raciocínio sobre Movimento Espacial em Vídeos

FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos

Resumo

Support