PhyMotion : Récompense de mouvement 3D structurée pour la génération de vidéos humaines ancrée dans la physique

Résumé

Générer un mouvement humain réaliste constitue un défi central mais non résolu dans la génération vidéo. Bien que l’apprentissage par renforcement (RL) post-entraînement ait récemment permis des améliorations de la qualité générale des vidéos, son extension au mouvement humain reste limitée par un signal de récompense incapable d’évaluer de manière fiable le réalisme du mouvement. Les récompenses vidéo existantes reposent principalement sur des signaux perceptifs 2D, sans modéliser explicitement l’état 3D du corps, le contact et la dynamique sous-jacents au mouvement humain articulé, et attribuent souvent des scores élevés à des vidéos présentant des corps flottants ou des mouvements physiquement invraisemblables. Pour y remédier, nous proposons PhyMotion, une récompense de mouvement structurée et fine qui ancre les trajectoires 3D humaines reconstruites dans un simulateur physique et évalue la qualité du mouvement selon plusieurs dimensions de faisabilité physique. Concrètement, nous reconstruisons les maillages corporels SMPL à partir des vidéos générées, les repositionnons sur un humanoïde dans le simulateur physique MuJoCo, et évaluons le mouvement résultant selon trois axes : plausibilité cinématique, cohérence du contact et de l’équilibre, et faisabilité dynamique. Chaque composante fournit un signal continu et interprétable lié à un aspect spécifique de la qualité du mouvement, permettant à la récompense de capturer quels aspects du mouvement sont physiquement corrects ou violés. Les expériences montrent que PhyMotion obtient une corrélation plus forte avec les jugements humains que les formulations de récompense existantes. Ces gains se retrouvent dans le post-entraînement par RL, où l’optimisation de PhyMotion conduit à des améliorations plus importantes et plus cohérentes que l’optimisation des récompenses existantes, améliorant le réalisme du mouvement à la fois pour les générateurs vidéo autorégressifs et bidirectionnels, selon des métriques automatiques et une évaluation humaine en aveugle (gain de +68 Elo). Les ablations montrent que les trois axes fournissent des signaux de supervision complémentaires, tandis que la récompense préserve la qualité globale de génération vidéo avec un surcoût d’entraînement modéré.

English

Generating realistic human motion is a central yet unsolved challenge in video generation. While reinforcement learning (RL)-based post-training has driven recent gains in general video quality, extending it to human motion remains bottlenecked by a reward signal that cannot reliably score motion realism. Existing video rewards primarily rely on 2D perceptual signals, without explicitly modeling the 3D body state, contact, and dynamics underlying articulated human motion, and often assign high scores to videos with floating bodies or physically implausible movements. To address this, we propose PhyMotion, a structured, fine-grained motion reward that grounds recovered 3D human trajectories in a physics simulator and evaluates motion quality along multiple dimensions of physical feasibility. Concretely, we recover SMPL body meshes from generated videos, retarget them onto a humanoid in the MuJoCo physics simulator, and evaluate the resulting motion along three axes: kinematic plausibility, contact and balance consistency, and dynamic feasibility. Each component provides a continuous and interpretable signal tied to a specific aspect of motion quality, allowing the reward to capture which aspects of motion are physically correct or violated. Experiments show that PhyMotion achieves stronger correlation with human judgments than existing reward formulations. These gains carry over to RL-based post-training, where optimizing PhyMotion leads to larger and more consistent improvements than optimizing existing rewards, improving motion realism across both autoregressive and bidirectional video generators under both automatic metrics and blind human evaluation (+68 Elo gain). Ablations show that the three axes provide complementary supervision signals, while the reward preserves overall video generation quality with only modest training overhead.