動的カメラポーズとその探索手法
Dynamic Camera Poses and Where to Find Them
April 24, 2025
著者: Chris Rockwell, Joseph Tung, Tsung-Yi Lin, Ming-Yu Liu, David F. Fouhey, Chen-Hsuan Lin
cs.AI
要旨
動的なインターネット動画におけるカメラポーズの大規模なアノテーションは、リアルな動画生成やシミュレーションといった分野の進展にとって極めて重要です。しかし、そのようなデータセットを収集することは困難であり、ほとんどのインターネット動画はポーズ推定に適していません。さらに、動的なインターネット動画のアノテーションは、最先端の手法にとっても大きな課題を提示します。本論文では、カメラポーズがアノテーションされた大規模な動的インターネット動画データセットであるDynPose-100Kを紹介します。私たちの収集パイプラインは、タスク固有のモデルと汎用モデルを慎重に組み合わせたフィルタリング手法を採用しています。ポーズ推定においては、ポイントトラッキング、動的マスキング、およびStructure-from-Motionの最新技術を組み合わせることで、最先端の手法を上回る改善を実現しました。私たちの分析と実験により、DynPose-100Kが大規模であり、かつ複数の重要な属性において多様性を有していることが示され、さまざまな下流アプリケーションの進展への道を開くことが明らかになりました。
English
Annotating camera poses on dynamic Internet videos at scale is critical for
advancing fields like realistic video generation and simulation. However,
collecting such a dataset is difficult, as most Internet videos are unsuitable
for pose estimation. Furthermore, annotating dynamic Internet videos present
significant challenges even for state-of-theart methods. In this paper, we
introduce DynPose-100K, a large-scale dataset of dynamic Internet videos
annotated with camera poses. Our collection pipeline addresses filtering using
a carefully combined set of task-specific and generalist models. For pose
estimation, we combine the latest techniques of point tracking, dynamic
masking, and structure-from-motion to achieve improvements over the
state-of-the-art approaches. Our analysis and experiments demonstrate that
DynPose-100K is both large-scale and diverse across several key attributes,
opening up avenues for advancements in various downstream applications.Summary
AI-Generated Summary