ChatPaper.aiChatPaper

Generierte Realität: Menschzentrierte Weltsimulation mittels interaktiver Videogenerierung mit Hand- und Kamerasteuerung

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

February 20, 2026
papers.authors: Linxi Xie, Lisong C. Sun, Ashley Neall, Tong Wu, Shengqu Cai, Gordon Wetzstein
cs.AI

papers.abstract

Erweiterte Realität (XR) erfordert generative Modelle, die auf die erfassten Bewegungen von Nutzern in der realen Welt reagieren. Bislang akzeptieren aktuelle Video-Weltmodelle jedoch nur grobe Steuersignale wie Texteingaben oder Tastatureingaben, was ihre Nützlichkeit für verkörperte Interaktionen einschränkt. Wir stellen ein menschenzentriertes Video-Weltmodell vor, das sowohl auf die erfasste Kopfpose als auch auf posenspezifische Handgelenkstellungen konditioniert ist. Zu diesem Zweck bewerten wir bestehende Konditionierungsstrategien für Diffusion-Transformer und schlagen einen effektiven Mechanismus für die 3D-Steuerung von Kopf und Händen vor, der geschickte Hand-Objekt-Interaktionen ermöglicht. Wir trainieren ein bidirektionales Video-Diffusionsmodell als Teacher-Modell unter Verwendung dieser Strategie und destillieren es in ein kausales, interaktives System, das egozentrische virtuelle Umgebungen generiert. Wir evaluieren dieses System für generierte Realität mit menschlichen Probanden und zeigen sowohl eine verbesserte Aufgabenleistung als auch ein signifikant höheres Maß an wahrgenommener Kontrolle über die ausgeführten Aktionen im Vergleich zu relevanten Baseline-Modellen.
English
Extended reality (XR) demands generative models that respond to users' tracked real-world motion, yet current video world models accept only coarse control signals such as text or keyboard input, limiting their utility for embodied interaction. We introduce a human-centric video world model that is conditioned on both tracked head pose and joint-level hand poses. For this purpose, we evaluate existing diffusion transformer conditioning strategies and propose an effective mechanism for 3D head and hand control, enabling dexterous hand--object interactions. We train a bidirectional video diffusion model teacher using this strategy and distill it into a causal, interactive system that generates egocentric virtual environments. We evaluate this generated reality system with human subjects and demonstrate improved task performance as well as a significantly higher level of perceived amount of control over the performed actions compared with relevant baselines.
PDF173February 24, 2026