PhyMotion: Recompensa Estructurada de Movimiento 3D para Generación de Video Humano Basada en Física

Resumen

Generar movimiento humano realista es un desafío central pero no resuelto en la generación de video. Si bien el post-entrenamiento basado en aprendizaje por refuerzo (RL) ha impulsado avances recientes en la calidad general del video, extenderlo al movimiento humano sigue estando limitado por una señal de recompensa que no puede evaluar de manera confiable el realismo del movimiento. Las recompensas de video existentes se basan principalmente en señales perceptuales 2D, sin modelar explícitamente el estado corporal 3D, el contacto y la dinámica subyacentes al movimiento humano articulado, y a menudo asignan puntuaciones altas a videos con cuerpos flotantes o movimientos físicamente implausibles. Para abordar esto, proponemos PhyMotion, una recompensa de movimiento estructurada y detallada que fundamenta las trayectorias humanas 3D recuperadas en un simulador físico y evalúa la calidad del movimiento a lo largo de múltiples dimensiones de factibilidad física. En concreto, recuperamos mallas corporales SMPL de videos generados, las reorientamos a un humanoide en el simulador físico MuJoCo y evaluamos el movimiento resultante a lo largo de tres ejes: plausibilidad cinemática, consistencia de contacto y equilibrio, y factibilidad dinámica. Cada componente proporciona una señal continua e interpretable vinculada a un aspecto específico de la calidad del movimiento, lo que permite que la recompensa capte qué aspectos del movimiento son físicamente correctos o violados. Los experimentos muestran que PhyMotion logra una correlación más fuerte con los juicios humanos que las formulaciones de recompensa existentes. Estas ganancias se trasladan al post-entrenamiento basado en RL, donde optimizar PhyMotion conduce a mejoras más grandes y consistentes que optimizar las recompensas existentes, mejorando el realismo del movimiento tanto en generadores de video autorregresivos como bidireccionales bajo métricas automáticas y evaluación humana ciega (+68 de ganancia Elo). Los análisis de ablación muestran que los tres ejes proporcionan señales de supervisión complementarias, mientras que la recompensa preserva la calidad general de generación de video con solo una sobrecarga de entrenamiento modesta.

English

Generating realistic human motion is a central yet unsolved challenge in video generation. While reinforcement learning (RL)-based post-training has driven recent gains in general video quality, extending it to human motion remains bottlenecked by a reward signal that cannot reliably score motion realism. Existing video rewards primarily rely on 2D perceptual signals, without explicitly modeling the 3D body state, contact, and dynamics underlying articulated human motion, and often assign high scores to videos with floating bodies or physically implausible movements. To address this, we propose PhyMotion, a structured, fine-grained motion reward that grounds recovered 3D human trajectories in a physics simulator and evaluates motion quality along multiple dimensions of physical feasibility. Concretely, we recover SMPL body meshes from generated videos, retarget them onto a humanoid in the MuJoCo physics simulator, and evaluate the resulting motion along three axes: kinematic plausibility, contact and balance consistency, and dynamic feasibility. Each component provides a continuous and interpretable signal tied to a specific aspect of motion quality, allowing the reward to capture which aspects of motion are physically correct or violated. Experiments show that PhyMotion achieves stronger correlation with human judgments than existing reward formulations. These gains carry over to RL-based post-training, where optimizing PhyMotion leads to larger and more consistent improvements than optimizing existing rewards, improving motion realism across both autoregressive and bidirectional video generators under both automatic metrics and blind human evaluation (+68 Elo gain). Ablations show that the three axes provide complementary supervision signals, while the reward preserves overall video generation quality with only modest training overhead.