TT4D: Un Sistema y Conjunto de Datos para la Reconstrucción 4D de Tenis de Mesa a partir de Vídeos Monoculares

Resumen

Presentamos TT4D, un conjunto de datos a gran escala y alta fidelidad sobre tenis de mesa. Proporciona más de 140 horas de partidas individuales y de dobles reconstruidas a partir de vídeos monoculares de transmisión, con anotaciones multimodales como calibraciones de cámara de alta calidad, posiciones 3D precisas de la pelota, efecto de la pelota, segmentación temporal y mallas humanas 3D a lo largo del tiempo. Estos datos exhaustivos proporcionan una nueva base para la repetición virtual, el análisis profundo de jugadores y el aprendizaje robótico. La combinación de escala y precisión del conjunto de datos se logra mediante un novedoso *pipeline* de reconstrucción. Los métodos anteriores primero dividen una secuencia de juego en segmentos de golpes individuales basándose en la trayectoria 2D de la pelota, y solo entonces intentan la reconstrucción. Sin embargo, la segmentación temporal basada en 2D falla bajo oclusiones y diversos puntos de vista de la cámara, impidiendo una reconstrucción fiable. Invertimos este paradigma elevando primero toda la trayectoria 2D no segmentada de la pelota a 3D mediante una red neuronal de elevación. Esta trayectoria 3D nos permite entonces realizar de forma fiable la segmentación temporal. La red neuronal de elevación también infiere el efecto de la pelota, maneja detecciones de pelota poco fiables y reconstruye con éxito la trayectoria de la pelota en casos de alta oclusión. Este diseño de *elevar primero* es necesario, ya que nuestro *pipeline* es el único método capaz de reconstruir partidas de tenis de mesa a partir de vídeos monoculares de transmisión con vistas generales. Demostramos la fidelidad del conjunto de datos mediante dos tareas derivadas: estimar la pose y la velocidad de la raqueta en el momento del impacto, y entrenar un modelo generativo de peloteos competitivos.

English

We present TT4D, a large-scale, high-fidelity table tennis dataset. It provides 140+ hours of reconstructed singles and doubles gameplay from monocular broadcast videos, featuring multimodal annotations like high-quality camera calibrations, precise 3D ball positions, ball spin, time segmentation, and 3D human meshes over time. This rich data provides a new foundation for virtual replay, in-depth player analysis, and robot learning. The dataset's combination of scale and precision is achieved through a novel reconstruction pipeline. Prior methods first partition a game sequence into individual shot segments based on the 2D ball track, and only then attempt reconstruction. However, 2D-based time segmentation collapses under occlusion and varied camera viewpoints, preventing reliable reconstruction. We invert this paradigm by first lifting the entire unsegmented 2D ball track to 3D through a learned lifting network. This 3D trajectory then allows us to reliably perform time segmentation. The learned lifting network also infers the ball's spin, handles unreliable ball detections, and successfully reconstructs the ball trajectory in cases of high occlusion. This lift-first design is necessary, as our pipeline is the only method capable of reconstructing table tennis gameplay from general-view broadcast monocular videos. We demonstrate the dataset's fidelity through two downstream tasks: estimating the racket's pose \& velocity at impact, and training a generative model of competitive rallies.

TT4D: Un Sistema y Conjunto de Datos para la Reconstrucción 4D de Tenis de Mesa a partir de Vídeos Monoculares

TT4D: A Pipeline and Dataset for Table Tennis 4D Reconstruction From Monocular Videos

Resumen

Support