Aufwertung des Tischtennissports: Eine robuste, praxistaugliche Anwendung zur 3D-Flugbahn- und Rotationsschätzung
Uplifting Table Tennis: A Robust, Real-World Application for 3D Trajectory and Spin Estimation
November 25, 2025
papers.authors: Daniel Kienzle, Katja Ludwig, Julian Lorenz, Shin'ichi Satoh, Rainer Lienhart
cs.AI
papers.abstract
Die präzise Erfassung der 3D-Bewegung eines Tischtennisballs aus Standard-Monokularvideos stellt eine anspruchsvolle Herausforderung dar, da bestehende, auf synthetischen Daten trainierte Methoden nur begrenzt auf die verrauschten und unvollkommenen Ball- und Tischdetektionen der realen Welt verallgemeinern können. Dies ist hauptsächlich auf den inhärenten Mangel an 3D-Ground-Truth-Trajektorien und Drall-Annotationen für reale Videos zurückzuführen. Um dies zu überwinden, schlagen wir eine neuartige Zwei-Stufen-Pipeline vor, die das Problem in eine Front-End-Wahrnehmungsaufgabe und eine Back-End-2D-zu-3D-Überführungsaufgabe unterteilt. Diese Trennung ermöglicht es uns, die Front-End-Komponenten mit umfangreicher 2D-Aufsicht aus unserem neu erstellten TTHQ-Datensatz zu trainieren, während das Back-End-Überführungsnetzwerk ausschließlich auf physikalisch korrekten synthetischen Daten trainiert wird. Wir haben das Überführungsmodell speziell so neu konzipiert, dass es robust gegenüber gängigen Störfaktoren der realen Welt ist, wie z.B. fehlenden Detektionen und variierenden Bildfrequenzen. Durch die Integration eines Balldetektors und eines Tisch-Keypoint-Detektors verwandelt unser Ansatz eine Machbarkeitsstudie zur Überführungsmethode in eine praktische, robuste und leistungsstarke End-to-End-Anwendung für die 3D-Trajektorien- und Drallanalyse im Tischtennis.
English
Obtaining the precise 3D motion of a table tennis ball from standard monocular videos is a challenging problem, as existing methods trained on synthetic data struggle to generalize to the noisy, imperfect ball and table detections of the real world. This is primarily due to the inherent lack of 3D ground truth trajectories and spin annotations for real-world video. To overcome this, we propose a novel two-stage pipeline that divides the problem into a front-end perception task and a back-end 2D-to-3D uplifting task. This separation allows us to train the front-end components with abundant 2D supervision from our newly created TTHQ dataset, while the back-end uplifting network is trained exclusively on physically-correct synthetic data. We specifically re-engineer the uplifting model to be robust to common real-world artifacts, such as missing detections and varying frame rates. By integrating a ball detector and a table keypoint detector, our approach transforms a proof-of-concept uplifting method into a practical, robust, and high-performing end-to-end application for 3D table tennis trajectory and spin analysis.