Realtà Generata: Simulazione del Mondo Centrata sull'Uomo mediante Generazione Video Interattiva con Controllo Manuale e della Fotocamera
Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control
February 20, 2026
Autori: Linxi Xie, Lisong C. Sun, Ashley Neall, Tong Wu, Shengqu Cai, Gordon Wetzstein
cs.AI
Abstract
La realtà estesa (XR) richiede modelli generativi che rispondano al movimento nel mondo reale tracciato degli utenti, ma gli attuali modelli video del mondo accettano solo segnali di controllo grossolani come input testuali o da tastiera, limitando la loro utilità per l'interazione incarnata. Introduciamo un modello video del mondo incentrato sull'uomo che è condizionato sia dalla posa della testa tracciata che dalle pose delle mani a livello articolare. A tal fine, valutiamo le strategie esistenti di condizionamento per transformer diffusion e proponiamo un meccanismo efficace per il controllo 3D di testa e mani, abilitando interazioni manuali-oggetto complesse. Addestriamo un insegnante di modelli di diffusione video bidirezionale utilizzando questa strategia e lo distilliamo in un sistema causale e interattivo che genera ambienti virtuali in prima persona. Valutiamo questo sistema di realtà generata con soggetti umani e dimostriamo un miglioramento delle prestazioni nel compito, nonché un livello significativamente più alto di percezione di controllo sulle azioni eseguite rispetto ai baseline rilevanti.
English
Extended reality (XR) demands generative models that respond to users' tracked real-world motion, yet current video world models accept only coarse control signals such as text or keyboard input, limiting their utility for embodied interaction. We introduce a human-centric video world model that is conditioned on both tracked head pose and joint-level hand poses. For this purpose, we evaluate existing diffusion transformer conditioning strategies and propose an effective mechanism for 3D head and hand control, enabling dexterous hand--object interactions. We train a bidirectional video diffusion model teacher using this strategy and distill it into a causal, interactive system that generates egocentric virtual environments. We evaluate this generated reality system with human subjects and demonstrate improved task performance as well as a significantly higher level of perceived amount of control over the performed actions compared with relevant baselines.