ChatPaper.aiChatPaper

FoundationMotion: 비디오에서의 공간적 움직임 자동 라벨링 및 추론

FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos

December 11, 2025
저자: Yulu Gan, Ligeng Zhu, Dandan Shan, Baifeng Shi, Hongxu Yin, Boris Ivanovic, Song Han, Trevor Darrell, Jitendra Malik, Marco Pavone, Boyi Li
cs.AI

초록

운동 이해는 물리적 추론의 기초를 이루며, 모델이 역학을 추론하고 미래 상태를 예측할 수 있게 합니다. 그러나 최첨단 모델들도 최근의 운동 벤치마크에서 여전히 어려움을 겪고 있는데, 이는 주로 대규모의 세분화된 운동 데이터셋의 부족 때문입니다. 기존 운동 데이터셋은 비용이 많이 드는 수동 주석 작업으로 구축되는 경우가 많아 확장성이 심각하게 제한됩니다. 이러한 문제를 해결하기 위해 우리는 대규모 운동 데이터셋을 구축하는 완전 자동화된 데이터 큐레이션 파이프라인인 FoundationMotion을 소개합니다. 우리의 접근 방식은 먼저 비디오에서 객체를 감지 및 추적하여 궤적을 추출한 다음, 이러한 궤적과 비디오 프레임을 대규모 언어 모델(LLM)과 결합하여 운동 및 공간 추론에 대한 세분화된 설명과 다양한 질문-답변 쌍을 생성합니다. 이 파이프라인으로 생성된 데이터셋을 사용하여 NVILA-Video-15B 및 Qwen2.5-7B를 포함한 오픈소스 모델을 미세 조정하여 다른 작업의 성능을 저하시키지 않으면서 운동 이해 능력에서 상당한 향상을 달성했습니다. 특히, 우리의 모델은 다양한 운동 이해 데이터셋과 벤치마크에서 Gemini-2.5 Flash와 같은 강력한 클로즈드소스 기준 모델과 Qwen2.5-VL-72B와 같은 대형 오픈소스 모델을 능가하는 성능을 보였습니다. 따라서 FoundationMotion은 다양한 모델의 효과적인 미세 조정을 가능하게 하여 운동 이해와 공간 추론 능력을 향상시키는 세분화된 운동 데이터셋을 큐레이션하기 위한 확장 가능한 솔루션을 제공합니다.
English
Motion understanding is fundamental to physical reasoning, enabling models to infer dynamics and predict future states. However, state-of-the-art models still struggle on recent motion benchmarks, primarily due to the scarcity of large-scale, fine-grained motion datasets. Existing motion datasets are often constructed from costly manual annotation, severely limiting scalability. To address this challenge, we introduce FoundationMotion, a fully automated data curation pipeline that constructs large-scale motion datasets. Our approach first detects and tracks objects in videos to extract their trajectories, then leverages these trajectories and video frames with Large Language Models (LLMs) to generate fine-grained captions and diverse question-answer pairs about motion and spatial reasoning. Using datasets produced by this pipeline, we fine-tune open-source models including NVILA-Video-15B and Qwen2.5-7B, achieving substantial improvements in motion understanding without compromising performance on other tasks. Notably, our models outperform strong closed-source baselines like Gemini-2.5 Flash and large open-source models such as Qwen2.5-VL-72B across diverse motion understanding datasets and benchmarks. FoundationMotion thus provides a scalable solution for curating fine-grained motion datasets that enable effective fine-tuning of diverse models to enhance motion understanding and spatial reasoning capabilities.
PDF22December 17, 2025