RealWonder: Generazione di Video in Tempo Reale Condizionata da Azioni Fisiche

Abstract

I modelli attuali di generazione video non possono simulare le conseguenze fisiche di azioni 3D come forze e manipolazioni robotiche, poiché mancano di una comprensione strutturale di come le azioni influenzano le scene 3D. Presentiamo RealWonder, il primo sistema in tempo reale per la generazione video condizionata da azioni a partire da una singola immagine. La nostra intuizione chiave è utilizzare la simulazione fisica come ponte intermedio: invece di codificare direttamente azioni continue, le traduciamo attraverso la simulazione fisica in rappresentazioni visive (flusso ottico e RGB) che i modelli video possono elaborare. RealWonder integra tre componenti: ricostruzione 3D da singole immagini, simulazione fisica e un generatore video distillato che richiede solo 4 passi di diffusione. Il nostro sistema raggiunge 13.2 FPS a una risoluzione di 480x832, consentendo l'esplorazione interattiva di forze, azioni robotiche e controlli della telecamera su oggetti rigidi, corpi deformabili, fluidi e materiali granulari. Prevediamo che RealWonder apra nuove opportunità per applicare modelli video in esperienze immersive, AR/VR e apprendimento robotico. Il nostro codice e i pesi del modello sono pubblicamente disponibili sul sito del progetto: https://liuwei283.github.io/RealWonder/

English

Current video generation models cannot simulate physical consequences of 3D actions like forces and robotic manipulations, as they lack structural understanding of how actions affect 3D scenes. We present RealWonder, the first real-time system for action-conditioned video generation from a single image. Our key insight is using physics simulation as an intermediate bridge: instead of directly encoding continuous actions, we translate them through physics simulation into visual representations (optical flow and RGB) that video models can process. RealWonder integrates three components: 3D reconstruction from single images, physics simulation, and a distilled video generator requiring only 4 diffusion steps. Our system achieves 13.2 FPS at 480x832 resolution, enabling interactive exploration of forces, robot actions, and camera controls on rigid objects, deformable bodies, fluids, and granular materials. We envision RealWonder opens new opportunities to apply video models in immersive experiences, AR/VR, and robot learning. Our code and model weights are publicly available in our project website: https://liuwei283.github.io/RealWonder/

RealWonder: Generazione di Video in Tempo Reale Condizionata da Azioni Fisiche

RealWonder: Real-Time Physical Action-Conditioned Video Generation

Abstract

Support