PhyMotion: Структурированная награда за 3D-движение для физически обоснованной генерации видео человека

Аннотация

Генерация реалистичных движений человека остается центральной, но нерешенной задачей в области видеогенерации. Хотя пост-тренинг на основе обучения с подкреплением (RL) обеспечил недавние успехи в общем качестве видео, его применение к движениям человека ограничено из-за сигнала вознаграждения, который не может надежно оценить реалистичность движений. Существующие видеовознаграждения в основном опираются на 2D-перцептивные сигналы, без явного моделирования трехмерного состояния тела, контактов и динамики, лежащих в основе сочлененных движений человека, и часто присваивают высокие баллы видео с «плавающими» телами или физически неправдоподобными движениями. Для решения этой проблемы мы предлагаем PhyMotion — структурированное, детализированное вознаграждение за движение, которое привязывает восстановленные трехмерные траектории человека к физическому симулятору и оценивает качество движения по нескольким измерениям физической осуществимости. В частности, мы восстанавливаем сетки тела SMPL из сгенерированных видео, перенацеливаем их на гуманоида в физическом симуляторе MuJoCo и оцениваем результирующее движение по трем осям: кинематическая правдоподобность, согласованность контактов и баланса, а также динамическая осуществимость. Каждый компонент обеспечивает непрерывный и интерпретируемый сигнал, связанный с конкретным аспектом качества движения, что позволяет вознаграждению фиксировать, какие аспекты движения физически корректны или нарушены. Эксперименты показывают, что PhyMotion достигает более сильной корреляции с человеческими оценками, чем существующие формулировки вознаграждений. Эти улучшения переносятся на пост-тренинг на основе RL, где оптимизация PhyMotion приводит к более значительным и стабильным улучшениям, чем оптимизация существующих вознаграждений, повышая реалистичность движений как в авторегрессионных, так и в двунаправленных генераторах видео по автоматическим метрикам и в слепой человеческой оценке (+68 пунктов рейтинга Эло). Абляционные исследования показывают, что три оси обеспечивают взаимодополняющие сигналы обратной связи, при этом вознаграждение сохраняет общее качество видеогенерации с лишь скромными вычислительными накладными расходами.

English

Generating realistic human motion is a central yet unsolved challenge in video generation. While reinforcement learning (RL)-based post-training has driven recent gains in general video quality, extending it to human motion remains bottlenecked by a reward signal that cannot reliably score motion realism. Existing video rewards primarily rely on 2D perceptual signals, without explicitly modeling the 3D body state, contact, and dynamics underlying articulated human motion, and often assign high scores to videos with floating bodies or physically implausible movements. To address this, we propose PhyMotion, a structured, fine-grained motion reward that grounds recovered 3D human trajectories in a physics simulator and evaluates motion quality along multiple dimensions of physical feasibility. Concretely, we recover SMPL body meshes from generated videos, retarget them onto a humanoid in the MuJoCo physics simulator, and evaluate the resulting motion along three axes: kinematic plausibility, contact and balance consistency, and dynamic feasibility. Each component provides a continuous and interpretable signal tied to a specific aspect of motion quality, allowing the reward to capture which aspects of motion are physically correct or violated. Experiments show that PhyMotion achieves stronger correlation with human judgments than existing reward formulations. These gains carry over to RL-based post-training, where optimizing PhyMotion leads to larger and more consistent improvements than optimizing existing rewards, improving motion realism across both autoregressive and bidirectional video generators under both automatic metrics and blind human evaluation (+68 Elo gain). Ablations show that the three axes provide complementary supervision signals, while the reward preserves overall video generation quality with only modest training overhead.