탁구 경기 향상을 위한 3차원 궤적 및 회전 추정의 강건한 실전 적용
Uplifting Table Tennis: A Robust, Real-World Application for 3D Trajectory and Spin Estimation
November 25, 2025
저자: Daniel Kienzle, Katja Ludwig, Julian Lorenz, Shin'ichi Satoh, Rainer Lienhart
cs.AI
초록
표준 단안 비디오에서 탁구 공의 정확한 3차원 운동을 획득하는 것은 기존의 합성 데이터로 훈련된 방법들이 실제 세계의 노이즈가 많고 불완전한 공 및 탁대 감지에 일반화하기 어려워 어려운 문제입니다. 이는 주로 실제 영상에 대한 3차원 실측 궤적 및 회전 주석의 본질적 부재 때문입니다. 이를 극복하기 위해, 우리는 문제를 프론트엔드 인식 작업과 백엔드 2D-to-3D 향상 작업으로 분리하는 새로운 2단계 파이프라인을 제안합니다. 이러한 분리를 통해 새로 구축한 TTPQ 데이터셋의 풍부한 2D 감독으로 프론트엔드 구성 요소를 훈련하는 동시에, 백엔드 향상 네트워크는 물리적으로 정확한 합성 데이터로만 독점적으로 훈련됩니다. 우리는 특히 누락된 감지 및 다양한 프레임 속도와 같은 일반적인 실제 현상에 강건하도록 향상 모델을 재설계합니다. 공 감지기와 탁대 키포인트 감지기를 통합함으로써, 우리의 접근 방식은 개념 증명 수준의 향상 방법을 실용적이고 강건하며 고성능의 종단간 3차원 탁구 궤적 및 회전 분석 애플리케이션으로 변환합니다.
English
Obtaining the precise 3D motion of a table tennis ball from standard monocular videos is a challenging problem, as existing methods trained on synthetic data struggle to generalize to the noisy, imperfect ball and table detections of the real world. This is primarily due to the inherent lack of 3D ground truth trajectories and spin annotations for real-world video. To overcome this, we propose a novel two-stage pipeline that divides the problem into a front-end perception task and a back-end 2D-to-3D uplifting task. This separation allows us to train the front-end components with abundant 2D supervision from our newly created TTHQ dataset, while the back-end uplifting network is trained exclusively on physically-correct synthetic data. We specifically re-engineer the uplifting model to be robust to common real-world artifacts, such as missing detections and varying frame rates. By integrating a ball detector and a table keypoint detector, our approach transforms a proof-of-concept uplifting method into a practical, robust, and high-performing end-to-end application for 3D table tennis trajectory and spin analysis.