TT4D : Un pipeline et un jeu de données pour la reconstruction 4D en tennis de table à partir de vidéos monoculaires
TT4D: A Pipeline and Dataset for Table Tennis 4D Reconstruction From Monocular Videos
May 2, 2026
Auteurs: Nima Rahmanian, Daniel Kienzle, Thomas Gossard, Dvij Kalaria, Rainer Lienhart, Shankar Sastry
cs.AI
Résumé
Nous présentons TT4D, un jeu de données de tennis de table à grande échelle et haute fidélité. Il offre plus de 140 heures de séquences de jeu en simple et en double reconstruites à partir de vidéos de diffusion monoculaires, avec des annotations multimodales telles que des calibrations de caméra de haute qualité, des positions 3D précises de la balle, l'effet de la balle, une segmentation temporelle et des maillages humains 3D temporels. Ces données riches offrent une nouvelle base pour la reprise virtuelle, l'analyse approfondie des joueurs et l'apprentissage robotique. La combinaison de l'échelle et de la précision du jeu de données est obtenue grâce à un nouveau pipeline de reconstruction. Les méthodes antérieures partitionnent d'abord une séquence de jeu en segments de frappe individuels basés sur la trajectoire 2D de la balle, avant de tenter la reconstruction. Cependant, la segmentation temporelle basée sur la 2D échoue en cas d'occlusion et de points de vue caméra variés, empêchant une reconstruction fiable. Nous inversons ce paradigme en relevant d'abord l'intégralité de la trajectoire 2D non segmentée de la balle en 3D via un réseau de relèvement appris. Cette trajectoire 3D nous permet ensuite d'effectuer de manière fiable la segmentation temporelle. Le réseau de relèvement appris infère également l'effet de la balle, gère les détections de balle peu fiables et reconstruit avec succès la trajectoire de la balle dans les cas de forte occlusion. Cette conception « relèvement d'abord » est nécessaire, car notre pipeline est la seule méthode capable de reconstruire des séquences de jeu de tennis de table à partir de vidéos monoculaires de diffusion en vue générale. Nous démontrons la fidélité du jeu de données via deux tâches en aval : l'estimation de la pose et de la vitesse de la raquette à l'impact, et l'entraînement d'un modèle génératif d'échanges compétitifs.
English
We present TT4D, a large-scale, high-fidelity table tennis dataset. It provides 140+ hours of reconstructed singles and doubles gameplay from monocular broadcast videos, featuring multimodal annotations like high-quality camera calibrations, precise 3D ball positions, ball spin, time segmentation, and 3D human meshes over time. This rich data provides a new foundation for virtual replay, in-depth player analysis, and robot learning. The dataset's combination of scale and precision is achieved through a novel reconstruction pipeline. Prior methods first partition a game sequence into individual shot segments based on the 2D ball track, and only then attempt reconstruction. However, 2D-based time segmentation collapses under occlusion and varied camera viewpoints, preventing reliable reconstruction. We invert this paradigm by first lifting the entire unsegmented 2D ball track to 3D through a learned lifting network. This 3D trajectory then allows us to reliably perform time segmentation. The learned lifting network also infers the ball's spin, handles unreliable ball detections, and successfully reconstructs the ball trajectory in cases of high occlusion. This lift-first design is necessary, as our pipeline is the only method capable of reconstructing table tennis gameplay from general-view broadcast monocular videos. We demonstrate the dataset's fidelity through two downstream tasks: estimating the racket's pose \& velocity at impact, and training a generative model of competitive rallies.