TT4D: Een Pijplijn en Dataset voor 4D-Reconstructie van Tafeltennis uit Monoculaire Video's
TT4D: A Pipeline and Dataset for Table Tennis 4D Reconstruction From Monocular Videos
May 2, 2026
Auteurs: Nima Rahmanian, Daniel Kienzle, Thomas Gossard, Dvij Kalaria, Rainer Lienhart, Shankar Sastry
cs.AI
Samenvatting
Wij presenteren TT4D, een grootschalige, hoogfideliteit dataset voor tafeltennis. De dataset biedt meer dan 140 uur aan gereconstrueerde enkel- en dubbelspelen vanuit monoscopische televisiebeelden, voorzien van multimodale annotaties zoals hoogwaardige camerakalibraties, nauwkeurige 3D-balposities, balrotatie (spin), tijdssegmentatie en 3D-meshes van spelers over tijd. Deze rijke data vormt een nieuwe basis voor virtuele herhalingen, diepgaande spelersanalyse en robotleren. De combinatie van schaal en precisie in de dataset wordt bereikt door een nieuwe reconstructiepipeline. Eerdere methodes segmenteren eerst een spelreeks in afzonderlijke slagen op basis van het 2D-balpad, en proberen pas daarna reconstructie. Op 2D gebaseerde tijdssegmentatie faalt echter bij occlusie en wisselende camerastandpunten, wat een betrouwbare reconstructie verhindert. Wij keren dit paradigma om door eerst het volledige, niet-gesegmenteerde 2D-balpad naar 3D te tillen met een getraind 'lifting'-netwerk. Dit 3D-traject stelt ons vervolgens in staat om op betrouwbare wijze tijdssegmentatie uit te voeren. Het getrainde netwerk leidt ook de balrotatie af, gaat om met onbetrouwbare baldetecties en reconstrueert het baltraject succesvol bij sterke occlusie. Deze 'lift-first'-aanpak is noodzakelijk, aangezien onze pipeline de enige methode is die tafeltennisspelen kan reconstrueren vanuit algemene monoscopische televisiebeelden. Wij demonstreren de kwaliteit van de dataset via twee downstream-taken: het schatten van de positie & snelheid van het racket bij impact, en het trainen van een generatief model voor competitieve rally's.
English
We present TT4D, a large-scale, high-fidelity table tennis dataset. It provides 140+ hours of reconstructed singles and doubles gameplay from monocular broadcast videos, featuring multimodal annotations like high-quality camera calibrations, precise 3D ball positions, ball spin, time segmentation, and 3D human meshes over time. This rich data provides a new foundation for virtual replay, in-depth player analysis, and robot learning. The dataset's combination of scale and precision is achieved through a novel reconstruction pipeline. Prior methods first partition a game sequence into individual shot segments based on the 2D ball track, and only then attempt reconstruction. However, 2D-based time segmentation collapses under occlusion and varied camera viewpoints, preventing reliable reconstruction. We invert this paradigm by first lifting the entire unsegmented 2D ball track to 3D through a learned lifting network. This 3D trajectory then allows us to reliably perform time segmentation. The learned lifting network also infers the ball's spin, handles unreliable ball detections, and successfully reconstructs the ball trajectory in cases of high occlusion. This lift-first design is necessary, as our pipeline is the only method capable of reconstructing table tennis gameplay from general-view broadcast monocular videos. We demonstrate the dataset's fidelity through two downstream tasks: estimating the racket's pose \& velocity at impact, and training a generative model of competitive rallies.