Opschalen van Dynamische Mens-Scène Interactiemodellering
Scaling Up Dynamic Human-Scene Interaction Modeling
March 13, 2024
Auteurs: Nan Jiang, Zhiyuan Zhang, Hongjie Li, Xiaoxuan Ma, Zan Wang, Yixin Chen, Tengyu Liu, Yixin Zhu, Siyuan Huang
cs.AI
Samenvatting
Om de uitdagingen van dataschaarste en geavanceerde bewegingsynthese in de modellering van mens-scène-interacties aan te pakken, introduceren we de TRUMANS-dataset samen met een nieuwe methode voor HSI-bewegingsynthese. TRUMANS geldt als de meest uitgebreide motion-captured HSI-dataset die momenteel beschikbaar is, met meer dan 15 uur aan menselijke interacties in 100 binnenruimtes. Het legt gedetailleerd volledige lichaamsbewegingen van mensen en dynamiek op objectniveau vast, met een focus op de realiteit van contact. Deze dataset wordt verder uitgebreid door fysieke omgevingen om te zetten in exacte virtuele modellen en uitgebreide augmentaties toe te passen op het uiterlijk en de beweging van zowel mensen als objecten, terwijl de interactiegetrouwheid behouden blijft. Met behulp van TRUMANS ontwikkelen we een op diffusie gebaseerd autoregressief model dat efficiënt HSI-sequenties van elke lengte genereert, waarbij zowel de context van de scène als de beoogde acties in aanmerking worden genomen. In experimenten toont onze aanpak opmerkelijke zero-shot generaliseerbaarheid op een reeks 3D-scène-datasets (bijv. PROX, Replica, ScanNet, ScanNet++), waarbij bewegingen worden geproduceerd die nauw aansluiten bij originele motion-captured sequenties, zoals bevestigd door kwantitatieve experimenten en menselijke studies.
English
Confronting the challenges of data scarcity and advanced motion synthesis in
human-scene interaction modeling, we introduce the TRUMANS dataset alongside a
novel HSI motion synthesis method. TRUMANS stands as the most comprehensive
motion-captured HSI dataset currently available, encompassing over 15 hours of
human interactions across 100 indoor scenes. It intricately captures whole-body
human motions and part-level object dynamics, focusing on the realism of
contact. This dataset is further scaled up by transforming physical
environments into exact virtual models and applying extensive augmentations to
appearance and motion for both humans and objects while maintaining interaction
fidelity. Utilizing TRUMANS, we devise a diffusion-based autoregressive model
that efficiently generates HSI sequences of any length, taking into account
both scene context and intended actions. In experiments, our approach shows
remarkable zero-shot generalizability on a range of 3D scene datasets (e.g.,
PROX, Replica, ScanNet, ScanNet++), producing motions that closely mimic
original motion-captured sequences, as confirmed by quantitative experiments
and human studies.