TT4D: Eine Pipeline und ein Datensatz für die 4D-Rekonstruktion von Tischtennis aus monokularen Videos

Zusammenfassung

Wir präsentieren TT4D, einen groß angelegten, hochpräzisen Tischtennis-Datensatz. Er bietet über 140 Stunden rekonstruierte Einzel- und Doppelspiele aus monokularen Übertragungsvideos mit multimodalen Annotationen wie hochwertigen Kamerakalibrierungen, präzisen 3D-Ballpositionen, Ballrotation, Zeitssegmentierung und 3D-Mensch-Meshes über die Zeit. Diese umfangreichen Daten bilden eine neue Grundlage für virtuelle Wiederholungen, detaillierte Spieleranalysen und Roboterlernen. Die Kombination aus Umfang und Präzision des Datensatzes wird durch eine neuartige Rekonstruktions-Pipeline erreicht. Bisherige Methoden unterteilen eine Spielsequenz zunächst anhand der 2D-Ballbahn in einzelne Schlagsegmente und versuchen erst dann die Rekonstruktion. Eine auf 2D basierende Zeitssegmentierung versagt jedoch bei Verdeckungen und variierenden Kameraperspektiven, was eine zuverlässige Rekonstruktion verhindert. Wir kehren dieses Paradigma um, indem wir zunächst die gesamte unsegmentierte 2D-Ballbahn mittels eines gelernten Lift-Netzwerks in den 3D-Raum überführen. Diese 3D-Trajektorie ermöglicht es uns dann, die Zeitssegmentierung zuverlässig durchzuführen. Das gelernte Lift-Netzwerk leitet zudem die Rotation des Balls ab, verarbeitet unzuverlässige Ballerkennungen und rekonstruiert erfolgreich die Ballbahn auch bei starker Verdeckung. Dieser "Lift-first"-Ansatz ist notwendig, da unsere Pipeline die einzige Methode ist, die Tischtennisspiele aus monokularen Übertragungsvideos mit allgemeiner Kameraperspektive rekonstruieren kann. Wir demonstrieren die Genauigkeit des Datensatzes anhand zweier nachgelagerter Aufgaben: der Schätzung von Schlägerpose & -geschwindigkeit beim Aufschlag und dem Training eines generativen Modells für wettkampfähnliche Ballwechsel.

English

We present TT4D, a large-scale, high-fidelity table tennis dataset. It provides 140+ hours of reconstructed singles and doubles gameplay from monocular broadcast videos, featuring multimodal annotations like high-quality camera calibrations, precise 3D ball positions, ball spin, time segmentation, and 3D human meshes over time. This rich data provides a new foundation for virtual replay, in-depth player analysis, and robot learning. The dataset's combination of scale and precision is achieved through a novel reconstruction pipeline. Prior methods first partition a game sequence into individual shot segments based on the 2D ball track, and only then attempt reconstruction. However, 2D-based time segmentation collapses under occlusion and varied camera viewpoints, preventing reliable reconstruction. We invert this paradigm by first lifting the entire unsegmented 2D ball track to 3D through a learned lifting network. This 3D trajectory then allows us to reliably perform time segmentation. The learned lifting network also infers the ball's spin, handles unreliable ball detections, and successfully reconstructs the ball trajectory in cases of high occlusion. This lift-first design is necessary, as our pipeline is the only method capable of reconstructing table tennis gameplay from general-view broadcast monocular videos. We demonstrate the dataset's fidelity through two downstream tasks: estimating the racket's pose \& velocity at impact, and training a generative model of competitive rallies.

TT4D: Eine Pipeline und ein Datensatz für die 4D-Rekonstruktion von Tischtennis aus monokularen Videos

TT4D: A Pipeline and Dataset for Table Tennis 4D Reconstruction From Monocular Videos

Zusammenfassung

Support