TT4D: Пайплайн и набор данных для 4D-реконструкции настольного тенниса по моноскопическим видео
TT4D: A Pipeline and Dataset for Table Tennis 4D Reconstruction From Monocular Videos
May 2, 2026
Авторы: Nima Rahmanian, Daniel Kienzle, Thomas Gossard, Dvij Kalaria, Rainer Lienhart, Shankar Sastry
cs.AI
Аннотация
Мы представляем TT4D — масштабный высокоточный набор данных по настольному теннису. Он включает более 140 часов реконструированной одиночной и парной игры из монокулярных трансляционных видео с мультимодальными аннотациями: высокоточные калибровки камер, точные 3D-позиции мяча, вращение мяча, временная сегментация и 3D-меши игроков с временной привязкой. Эти комплексные данные создают новую основу для виртуальных повторов, углубленного анализа игроков и обучения роботов. Сочетание масштаба и точности набора данных достигнуто благодаря новой схеме реконструкции. Предыдущие методы сначала разделяют игровую последовательность на отдельные сегменты ударов на основе 2D-траектории мяча, и только затемattempt реконструкцию. Однако 2D-временная сегментация нарушается при окклюзиях и сменах ракурсов камер, что делает надежную реконструкцию невозможной. Мы инвертируем эту парадигму, сначала преобразуя всю несегментированную 2D-траекторию мяча в 3D с помощью обученной сети подъема. Эта 3D-траектория затем позволяет надежно выполнить временную сегментацию. Обученная сеть подъема также предсказывает вращение мяча, обрабатывает ненадежные детекции мяча и успешно восстанавливает траекторию мяча в условиях сильной окклюзии. Такой подход «подъем-первым» необходим, поскольку наша схема — единственный метод, способный реконструировать игровые ситуации в настольном теннисе из монокулярных трансляционных видео общего плана. Мы демонстрируем точность набора данных на двух прикладных задачах: оценке позы и скорости ракетки в момент удара и обучении генеративной модели конкурентных розыгрышей.
English
We present TT4D, a large-scale, high-fidelity table tennis dataset. It provides 140+ hours of reconstructed singles and doubles gameplay from monocular broadcast videos, featuring multimodal annotations like high-quality camera calibrations, precise 3D ball positions, ball spin, time segmentation, and 3D human meshes over time. This rich data provides a new foundation for virtual replay, in-depth player analysis, and robot learning. The dataset's combination of scale and precision is achieved through a novel reconstruction pipeline. Prior methods first partition a game sequence into individual shot segments based on the 2D ball track, and only then attempt reconstruction. However, 2D-based time segmentation collapses under occlusion and varied camera viewpoints, preventing reliable reconstruction. We invert this paradigm by first lifting the entire unsegmented 2D ball track to 3D through a learned lifting network. This 3D trajectory then allows us to reliably perform time segmentation. The learned lifting network also infers the ball's spin, handles unreliable ball detections, and successfully reconstructs the ball trajectory in cases of high occlusion. This lift-first design is necessary, as our pipeline is the only method capable of reconstructing table tennis gameplay from general-view broadcast monocular videos. We demonstrate the dataset's fidelity through two downstream tasks: estimating the racket's pose \& velocity at impact, and training a generative model of competitive rallies.