ChatPaper.aiChatPaper

TT4D: 단안 비디오 기반 탁구 4D 재구성을 위한 파이프라인 및 데이터셋

TT4D: A Pipeline and Dataset for Table Tennis 4D Reconstruction From Monocular Videos

May 2, 2026
저자: Nima Rahmanian, Daniel Kienzle, Thomas Gossard, Dvij Kalaria, Rainer Lienhart, Shankar Sastry
cs.AI

초록

TT4D 대규모 고품질 탁구 데이터셋을 소개합니다. 본 데이터셋은 모노큘러 방송 영상에서 재구성된 단식 및 복식 경기 140시간 이상을 제공하며, 고품질 카메라 캘리브레이션, 정밀한 3D 공 위치, 공 회전, 시간 분할, 시간 경과에 따른 3D 인간 메시 등 다양한 멀티모달 주석을 특징으로 합니다. 이러한 풍부한 데이터는 가상 재생, 심층 선수 분석, 로봇 학습을 위한 새로운 기반을 마련합니다. 데이터셋의 규모와 정밀도의 결합은 새로운 재구성 파이프라인을 통해 달성되었습니다. 기존 방법은 먼저 2D 공 궤적을 기반으로 게임 시퀀스를 개별 샷 세그먼트로 분할한 후에야 재구성을 시도했습니다. 그러나 2D 기반 시간 분할은 occlusion 및 다양한 카메라 시점에서 취약하여 신뢰할 수 있는 재구성을 방해합니다. 우리는 이러한 패러다임을 역전시켜, 학습된 리프팅 네트워크를 통해 분할되지 않은 전체 2D 공 궤적을 먼저 3D로 리프팅합니다. 이 3D 궤적을 통해 신뢰성 있게 시간 분할을 수행할 수 있습니다. 학습된 리프팅 네트워크는 또한 공의 회전을 추론하고, 신뢰할 수 없는 공 검출을 처리하며, 높은 occlusion 상황에서도 공 궤적 재구성에 성공합니다. 이러한 리프팅-우선 설계는 일반 시점 방송 모노큘러 영상으로부터 탁구 경기 장면을 재구성할 수 있는 유일한 방법인 우리 파이프라인에 필수적입니다. 우리는 두 가지 하위 작업(임팩트 시 라켓의 포즈 및 속도 추정, 경쟁력 있는 랠리 생성 모델 학습)을 통해 데이터셋의 정확도를 입증합니다.
English
We present TT4D, a large-scale, high-fidelity table tennis dataset. It provides 140+ hours of reconstructed singles and doubles gameplay from monocular broadcast videos, featuring multimodal annotations like high-quality camera calibrations, precise 3D ball positions, ball spin, time segmentation, and 3D human meshes over time. This rich data provides a new foundation for virtual replay, in-depth player analysis, and robot learning. The dataset's combination of scale and precision is achieved through a novel reconstruction pipeline. Prior methods first partition a game sequence into individual shot segments based on the 2D ball track, and only then attempt reconstruction. However, 2D-based time segmentation collapses under occlusion and varied camera viewpoints, preventing reliable reconstruction. We invert this paradigm by first lifting the entire unsegmented 2D ball track to 3D through a learned lifting network. This 3D trajectory then allows us to reliably perform time segmentation. The learned lifting network also infers the ball's spin, handles unreliable ball detections, and successfully reconstructs the ball trajectory in cases of high occlusion. This lift-first design is necessary, as our pipeline is the only method capable of reconstructing table tennis gameplay from general-view broadcast monocular videos. We demonstrate the dataset's fidelity through two downstream tasks: estimating the racket's pose \& velocity at impact, and training a generative model of competitive rallies.
PDF11May 8, 2026