PhyMotion: Recompensa de Movimento 3D Estruturada para Geração de Vídeo Humano Fundamentada em Física

Resumo

Gerar movimentos humanos realistas é um desafio central, porém não resolvido, na geração de vídeos. Embora o pós-treinamento baseado em aprendizado por reforço (RL) tenha impulsionado ganhos recentes na qualidade geral dos vídeos, estendê-lo ao movimento humano ainda é limitado por um sinal de recompensa que não consegue avaliar de forma confiável o realismo do movimento. As recompensas de vídeo existentes dependem principalmente de sinais perceptuais 2D, sem modelar explicitamente o estado corporal 3D, o contato e a dinâmica subjacentes ao movimento humano articulado, frequentemente atribuindo pontuações altas a vídeos com corpos flutuantes ou movimentos fisicamente implausíveis. Para resolver isso, propomos o PhyMotion, uma recompensa de movimento estruturada e de granularidade fina que ancora trajetórias humanas 3D recuperadas em um simulador físico e avalia a qualidade do movimento ao longo de múltiplas dimensões de viabilidade física. Concretamente, recuperamos malhas corporais SMPL a partir de vídeos gerados, as redirecionamos para um humanoide no simulador físico MuJoCo e avaliamos o movimento resultante em três eixos: plausibilidade cinemática, consistência de contato e equilíbrio, e viabilidade dinâmica. Cada componente fornece um sinal contínuo e interpretável vinculado a um aspecto específico da qualidade do movimento, permitindo que a recompena capture quais aspectos do movimento são fisicamente corretos ou violados. Experimentos mostram que o PhyMotion alcança uma correlação mais forte com os julgamentos humanos do que as formulações de recompensa existentes. Esses ganhos se estendem ao pós-treinamento baseado em RL, onde a otimização do PhyMotion leva a melhorias maiores e mais consistentes do que a otimização de recompensas existentes, aprimorando o realismo do movimento tanto em geradores de vídeo autorregressivos quanto bidirecionais, sob métricas automáticas e avaliação humana cega (+68 pontos de Elo). As ablações mostram que os três eixos fornecem sinais de supervisão complementares, enquanto a recompensa preserva a qualidade geral da geração de vídeo com apenas uma modesta sobrecarga de treinamento.

English

Generating realistic human motion is a central yet unsolved challenge in video generation. While reinforcement learning (RL)-based post-training has driven recent gains in general video quality, extending it to human motion remains bottlenecked by a reward signal that cannot reliably score motion realism. Existing video rewards primarily rely on 2D perceptual signals, without explicitly modeling the 3D body state, contact, and dynamics underlying articulated human motion, and often assign high scores to videos with floating bodies or physically implausible movements. To address this, we propose PhyMotion, a structured, fine-grained motion reward that grounds recovered 3D human trajectories in a physics simulator and evaluates motion quality along multiple dimensions of physical feasibility. Concretely, we recover SMPL body meshes from generated videos, retarget them onto a humanoid in the MuJoCo physics simulator, and evaluate the resulting motion along three axes: kinematic plausibility, contact and balance consistency, and dynamic feasibility. Each component provides a continuous and interpretable signal tied to a specific aspect of motion quality, allowing the reward to capture which aspects of motion are physically correct or violated. Experiments show that PhyMotion achieves stronger correlation with human judgments than existing reward formulations. These gains carry over to RL-based post-training, where optimizing PhyMotion leads to larger and more consistent improvements than optimizing existing rewards, improving motion realism across both autoregressive and bidirectional video generators under both automatic metrics and blind human evaluation (+68 Elo gain). Ablations show that the three axes provide complementary supervision signals, while the reward preserves overall video generation quality with only modest training overhead.