FoundationMotion: Automatische Beschriftung und Analyse räumlicher Bewegungen in Videos
FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos
December 11, 2025
papers.authors: Yulu Gan, Ligeng Zhu, Dandan Shan, Baifeng Shi, Hongxu Yin, Boris Ivanovic, Song Han, Trevor Darrell, Jitendra Malik, Marco Pavone, Boyi Li
cs.AI
papers.abstract
Das Verständnis von Bewegung ist grundlegend für physikalisches Schließen, da es Modellen ermöglicht, Dynamiken abzuleiten und zukünftige Zustände vorherzusagen. Allerdings haben state-of-the-art Modelle auf aktuellen Bewegungs-Benchmarks nach wie vor Schwierigkeiten, was hauptsächlich auf die Knappheit an groß angelegten, feingranularen Bewegungsdatensätzen zurückzuführen ist. Bestehende Bewegungsdatensätze werden oft durch kostspielige manuelle Annotation erstellt, was die Skalierbarkeit erheblich einschränkt. Um diese Herausforderung zu bewältigen, stellen wir FoundationMotion vor, eine vollständig automatisierte Datenkuratierungspipeline, die groß angelegte Bewegungsdatensätze erstellt. Unser Ansatz erkennt und verfolgt zunächst Objekte in Videos, um ihre Trajektorien zu extrahieren, und nutzt dann diese Trajektorien sowie Videobilder zusammen mit Large Language Models (LLMs), um feingranulare Beschreibungen und diverse Frage-Antwort-Paare zu Bewegung und räumlichem Schließen zu generieren. Mit durch diese Pipeline erzeugten Datensätzen feintunen wir Open-Source-Modelle, darunter NVILA-Video-15B und Qwen2.5-7B, und erzielen dabei erhebliche Verbesserungen im Bewegungsverständnis, ohne die Leistung bei anderen Aufgaben zu beeinträchtigen. Bemerkenswerterweise übertreffen unsere Modelle starke Closed-Source-Baselines wie Gemini-2.5 Flash und große Open-Source-Modelle wie Qwen2.5-VL-72B auf verschiedenen Datensätzen und Benchmarks für Bewegungsverständnis. FoundationMotion bietet somit eine skalierbare Lösung zur Kuratierung feingranularer Bewegungsdatensätze, die ein effektives Feintunen verschiedener Modelle ermöglicht, um deren Fähigkeiten im Bewegungsverständnis und räumlichen Schließen zu verbessern.
English
Motion understanding is fundamental to physical reasoning, enabling models to infer dynamics and predict future states. However, state-of-the-art models still struggle on recent motion benchmarks, primarily due to the scarcity of large-scale, fine-grained motion datasets. Existing motion datasets are often constructed from costly manual annotation, severely limiting scalability. To address this challenge, we introduce FoundationMotion, a fully automated data curation pipeline that constructs large-scale motion datasets. Our approach first detects and tracks objects in videos to extract their trajectories, then leverages these trajectories and video frames with Large Language Models (LLMs) to generate fine-grained captions and diverse question-answer pairs about motion and spatial reasoning. Using datasets produced by this pipeline, we fine-tune open-source models including NVILA-Video-15B and Qwen2.5-7B, achieving substantial improvements in motion understanding without compromising performance on other tasks. Notably, our models outperform strong closed-source baselines like Gemini-2.5 Flash and large open-source models such as Qwen2.5-VL-72B across diverse motion understanding datasets and benchmarks. FoundationMotion thus provides a scalable solution for curating fine-grained motion datasets that enable effective fine-tuning of diverse models to enhance motion understanding and spatial reasoning capabilities.