卓球の軌跡と回転を高精度に推定:3Dトラッキング技術の実用的応用
Uplifting Table Tennis: A Robust, Real-World Application for 3D Trajectory and Spin Estimation
November 25, 2025
著者: Daniel Kienzle, Katja Ludwig, Julian Lorenz, Shin'ichi Satoh, Rainer Lienhart
cs.AI
要旨
単眼カメラ映像から卓球ボールの正確な3次元運動を取得することは困難な課題である。合成データで学習した既存手法は、実世界のノイズや不完全なボール・卓球台検出に汎化できないためである。これは主に、実写映像における3次元軌道と回転の正解データが本質的に欠如していることに起因する。この問題を克服するため、我々は問題を前段の知覚タスクと後段の2次元-3次元変換タスクに分割する新しい二段階パイプラインを提案する。この分離により、新たに構築したTTHQデータセットからの豊富な2次元教師データで前段コンポーネントを学習可能とし、後段の変換ネットワークは物理的に正確な合成データのみで学習する。特に変換モデルは、検出漏れや可変フレームレートといった実世界で一般的な問題に頑健となるよう再設計した。ボール検出器と卓球台キーポイント検出器を統合することで、概念実証レベルの変換手法を、実用的で頑健、かつ高性能な3次元卓球軌道・回転分析のエンドツーエンド応用へと発展させる。
English
Obtaining the precise 3D motion of a table tennis ball from standard monocular videos is a challenging problem, as existing methods trained on synthetic data struggle to generalize to the noisy, imperfect ball and table detections of the real world. This is primarily due to the inherent lack of 3D ground truth trajectories and spin annotations for real-world video. To overcome this, we propose a novel two-stage pipeline that divides the problem into a front-end perception task and a back-end 2D-to-3D uplifting task. This separation allows us to train the front-end components with abundant 2D supervision from our newly created TTHQ dataset, while the back-end uplifting network is trained exclusively on physically-correct synthetic data. We specifically re-engineer the uplifting model to be robust to common real-world artifacts, such as missing detections and varying frame rates. By integrating a ball detector and a table keypoint detector, our approach transforms a proof-of-concept uplifting method into a practical, robust, and high-performing end-to-end application for 3D table tennis trajectory and spin analysis.