Realidad Generada: Simulación de Mundos Centrada en el Humano mediante Generación Interactiva de Video con Control Manual y de Cámara
Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control
February 20, 2026
Autores: Linxi Xie, Lisong C. Sun, Ashley Neall, Tong Wu, Shengqu Cai, Gordon Wetzstein
cs.AI
Resumen
La realidad extendida (XR) requiere modelos generativos que respondan al movimiento del usuario en el mundo real rastreado, sin embargo, los modelos de video mundiales actuales solo aceptan señales de control básicas como texto o entrada por teclado, lo que limita su utilidad para la interacción corporeizada. Introducimos un modelo de video mundial centrado en el humano que se condiciona tanto por la pose de la cabeza rastreada como por las poses de las manos a nivel articular. Para ello, evaluamos las estrategias existentes de condicionamiento en transformadores de difusión y proponemos un mecanismo efectivo para el control tridimensional de cabeza y manos, permitiendo interacciones diestras entre manos y objetos. Entrenamos un modelo maestro de difusión de video bidireccional utilizando esta estrategia y lo destilamos en un sistema causal e interactivo que genera entornos virtuales en primera persona. Evaluamos este sistema de realidad generada con sujetos humanos y demostramos una mejora en el rendimiento de tareas, así como un nivel significativamente mayor de percepción de control sobre las acciones realizadas en comparación con líneas base relevantes.
English
Extended reality (XR) demands generative models that respond to users' tracked real-world motion, yet current video world models accept only coarse control signals such as text or keyboard input, limiting their utility for embodied interaction. We introduce a human-centric video world model that is conditioned on both tracked head pose and joint-level hand poses. For this purpose, we evaluate existing diffusion transformer conditioning strategies and propose an effective mechanism for 3D head and hand control, enabling dexterous hand--object interactions. We train a bidirectional video diffusion model teacher using this strategy and distill it into a causal, interactive system that generates egocentric virtual environments. We evaluate this generated reality system with human subjects and demonstrate improved task performance as well as a significantly higher level of perceived amount of control over the performed actions compared with relevant baselines.