Elevando o Tênis de Mesa: Uma Aplicação Robusta no Mundo Real para Estimativa de Trajetória 3D e Efeito

Resumo

A obtenção do movimento 3D preciso de uma bola de ténis de mesa a partir de vídeos monoculares padrão é um problema desafiador, uma vez que os métodos existentes treinados em dados sintéticos lutam para generalizar para as deteções ruidosas e imperfeitas da bola e da mesa do mundo real. Isto deve-se principalmente à falta inerente de trajetórias 3D de *ground truth* e anotações de *spin* para vídeo do mundo real. Para superar isto, propomos um *pipeline* inovador de dois estágios que divide o problema numa tarefa de perceção de *front-end* e numa tarefa de elevação (*uplifting*) 2D-para-3D de *back-end*. Esta separação permite-nos treinar os componentes de *front-end* com supervisão 2D abundante do nosso novo conjunto de dados TTHQ, enquanto a rede de elevação de *back-end* é treinada exclusivamente em dados sintéticos fisicamente corretos. Especificamente, reestruturamos o modelo de elevação para ser robusto a artefactos comuns do mundo real, como deteções em falta e taxas de *frames* variáveis. Ao integrar um detetor de bolas e um detetor de pontos-chave da mesa, a nossa abordagem transforma um método de elevação de prova de conceito numa aplicação prática, robusta e de alto desempenho de ponta a ponta para análise de trajetória e *spin* 3D no ténis de mesa.

English

Obtaining the precise 3D motion of a table tennis ball from standard monocular videos is a challenging problem, as existing methods trained on synthetic data struggle to generalize to the noisy, imperfect ball and table detections of the real world. This is primarily due to the inherent lack of 3D ground truth trajectories and spin annotations for real-world video. To overcome this, we propose a novel two-stage pipeline that divides the problem into a front-end perception task and a back-end 2D-to-3D uplifting task. This separation allows us to train the front-end components with abundant 2D supervision from our newly created TTHQ dataset, while the back-end uplifting network is trained exclusively on physically-correct synthetic data. We specifically re-engineer the uplifting model to be robust to common real-world artifacts, such as missing detections and varying frame rates. By integrating a ball detector and a table keypoint detector, our approach transforms a proof-of-concept uplifting method into a practical, robust, and high-performing end-to-end application for 3D table tennis trajectory and spin analysis.

Elevando o Tênis de Mesa: Uma Aplicação Robusta no Mundo Real para Estimativa de Trajetória 3D e Efeito

Uplifting Table Tennis: A Robust, Real-World Application for 3D Trajectory and Spin Estimation

Resumo

Support