RealWonder : Génération de vidéo en temps réel conditionnée par l'action physique
RealWonder: Real-Time Physical Action-Conditioned Video Generation
March 5, 2026
Auteurs: Wei Liu, Ziyu Chen, Zizhang Li, Yue Wang, Hong-Xing Yu, Jiajun Wu
cs.AI
Résumé
Les modèles actuels de génération vidéo ne peuvent simuler les conséquences physiques d'actions en 3D comme les forces et les manipulations robotiques, car ils manquent d'une compréhension structurelle de la façon dont les actions affectent les scènes 3D. Nous présentons RealWonder, le premier système temps réel de génération vidéo conditionnée par l'action à partir d'une seule image. Notre idée clé est d'utiliser la simulation physique comme pont intermédiaire : au lieu d'encoder directement les actions continues, nous les traduisons via la simulation physique en représentations visuelles (flux optique et RVB) que les modèles vidéo peuvent traiter. RealWonder intègre trois composants : la reconstruction 3D à partir d'images uniques, la simulation physique, et un générateur vidéo distillé nécessitant seulement 4 étapes de diffusion. Notre système atteint 13,2 IPS à une résolution de 480x832, permettant l'exploration interactive des forces, des actions robotiques et des contrôles caméra sur des objets rigides, des corps déformables, des fluides et des matériaux granulaires. Nous envisageons que RealWonder ouvre de nouvelles opportunités pour appliquer les modèles vidéo dans les expériences immersives, la RA/RV et l'apprentissage robotique. Notre code et nos poids de modèle sont disponibles publiquement sur notre site web : https://liuwei283.github.io/RealWonder/
English
Current video generation models cannot simulate physical consequences of 3D actions like forces and robotic manipulations, as they lack structural understanding of how actions affect 3D scenes. We present RealWonder, the first real-time system for action-conditioned video generation from a single image. Our key insight is using physics simulation as an intermediate bridge: instead of directly encoding continuous actions, we translate them through physics simulation into visual representations (optical flow and RGB) that video models can process. RealWonder integrates three components: 3D reconstruction from single images, physics simulation, and a distilled video generator requiring only 4 diffusion steps. Our system achieves 13.2 FPS at 480x832 resolution, enabling interactive exploration of forces, robot actions, and camera controls on rigid objects, deformable bodies, fluids, and granular materials. We envision RealWonder opens new opportunities to apply video models in immersive experiences, AR/VR, and robot learning. Our code and model weights are publicly available in our project website: https://liuwei283.github.io/RealWonder/