Potenciando el Tenis de Mesa: Una Aplicación Robusta en el Mundo Real para la Estimación de Trayectoria y Efecto en 3D
Uplifting Table Tennis: A Robust, Real-World Application for 3D Trajectory and Spin Estimation
November 25, 2025
Autores: Daniel Kienzle, Katja Ludwig, Julian Lorenz, Shin'ichi Satoh, Rainer Lienhart
cs.AI
Resumen
Obtener el movimiento 3D preciso de una pelota de tenis de mesa a partir de vídeos monoculares estándar es un problema complejo, ya que los métodos existentes entrenados con datos sintéticos tienen dificultades para generalizar a las detecciones ruidosas e imperfectas de la pelota y la mesa en el mundo real. Esto se debe principalmente a la inherente falta de trayectorias 3D de referencia y anotaciones de efecto (spin) para vídeos del mundo real. Para superar esto, proponemos una novedosa canalización de dos etapas que divide el problema en una tarea de percepción de front-end y una tarea de elevación (uplifting) de 2D a 3D de back-end. Esta separación nos permite entrenar los componentes de front-end con supervisión 2D abundante de nuestro nuevo conjunto de datos TTHQ, mientras que la red de elevación de back-end se entrena exclusivamente con datos sintéticos físicamente correctos. Rediseñamos específicamente el modelo de elevación para que sea robusto ante artefactos comunes del mundo real, como detecciones faltantes y frecuencias de cuadro variables. Al integrar un detector de pelota y un detector de puntos clave de la mesa, nuestro enfoque transforma un método de elevación de prueba de concepto en una aplicación práctica, robusta y de alto rendimiento de extremo a extremo para el análisis de trayectorias y efecto en 3D en el tenis de mesa.
English
Obtaining the precise 3D motion of a table tennis ball from standard monocular videos is a challenging problem, as existing methods trained on synthetic data struggle to generalize to the noisy, imperfect ball and table detections of the real world. This is primarily due to the inherent lack of 3D ground truth trajectories and spin annotations for real-world video. To overcome this, we propose a novel two-stage pipeline that divides the problem into a front-end perception task and a back-end 2D-to-3D uplifting task. This separation allows us to train the front-end components with abundant 2D supervision from our newly created TTHQ dataset, while the back-end uplifting network is trained exclusively on physically-correct synthetic data. We specifically re-engineer the uplifting model to be robust to common real-world artifacts, such as missing detections and varying frame rates. By integrating a ball detector and a table keypoint detector, our approach transforms a proof-of-concept uplifting method into a practical, robust, and high-performing end-to-end application for 3D table tennis trajectory and spin analysis.