LIMMT: Weniger ist mehr für Motion Tracking

Zusammenfassung

Wir argumentieren, dass hochwertige Bewegungsdaten die Tracking-Strategien bereits früh im Training in bessere Optimierungsverläufe lenken können. In dieser Arbeit stellen wir LIMMT (Less Is More for Motion Tracking) vor. Unseres Wissens ist dies die erste datenzentrierte Studie zum physikbasierten Tracking von humanoiden Bewegungen. Wir gehen über das bloße Entfernen minderwertiger und fehlerhafter Clips hinaus, indem wir die Qualität von Bewegungsdaten anhand dreier Dimensionen definieren: physikalische Machbarkeit, Diversität und Komplexität. Wir zeigen, dass bereits das Training mit weniger als 3 % von AMASS eine bessere Tracking-Leistung erzielt als das Training mit dem gesamten Datensatz. Darüber hinaus führen wir eine Datenbereinigung der geschätzten, aus dem Web stammenden MoCap-Daten durch. Umfangreiche Experimente und Analysen bestätigen die Wirksamkeit unseres Rahmens.

English

We argue that high-quality motion data can steer tracking policies toward better optimization trajectories early in training. In this work, we introduce LIMMT (Less Is More for Motion Tracking). To our knowledge, this is the first data-centric study for physics-based humanoid motion tracking. We go beyond simply removing low-quality and erroneous clips, but define motion data quality through three dimensions: physics feasibility, diversity, and complexity. We show that even training with under 3% of AMASS yields better tracking performance than training with the full dataset. We further conduct data cleaning on the estimated web-sourced mocap data. Extensive experiments and analyses validate the effectiveness of our framework.