Сгенерированная реальность: антропоцентричное моделирование мира с использованием интерактивной генерации видео с управлением жестами рук и камерой

Аннотация

Расширенная реальность (XR) требует генеративные модели, реагирующие на отслеживаемые движения пользователей в реальном мире, однако современные видео-миры принимают лишь грубые управляющие сигналы, такие как текст или ввод с клавиатуры, что ограничивает их полезность для воплощенного взаимодействия. Мы представляем ориентированную на человека модель видео-мира, которая учитывает как отслеживаемую позу головы, так и позы рук на уровне суставов. Для этой цели мы оцениваем существующие стратегии кондиционирования диффузионных трансформеров и предлагаем эффективный механизм для трехмерного управления головой и руками, обеспечивающий ловкие руко-объектные взаимодействия. Мы обучаем учителя — двунаправленную диффузионную модель для видео, используя эту стратегию, и проводим его дистилляцию в причинно-следственную интерактивную систему, которая генерирует эгоцентричные виртуальные окружения. Мы оцениваем эту систему генеративной реальности с участием людей-испытуемых и демонстрируем улучшенную производительность задач, а также значительно более высокий уровень воспринимаемого контроля над выполняемыми действиями по сравнению с релевантными базовыми методами.

English

Extended reality (XR) demands generative models that respond to users' tracked real-world motion, yet current video world models accept only coarse control signals such as text or keyboard input, limiting their utility for embodied interaction. We introduce a human-centric video world model that is conditioned on both tracked head pose and joint-level hand poses. For this purpose, we evaluate existing diffusion transformer conditioning strategies and propose an effective mechanism for 3D head and hand control, enabling dexterous hand--object interactions. We train a bidirectional video diffusion model teacher using this strategy and distill it into a causal, interactive system that generates egocentric virtual environments. We evaluate this generated reality system with human subjects and demonstrate improved task performance as well as a significantly higher level of perceived amount of control over the performed actions compared with relevant baselines.

Сгенерированная реальность: антропоцентричное моделирование мира с использованием интерактивной генерации видео с управлением жестами рук и камерой

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Аннотация

Support