ChatPaper.aiChatPaper

Opschalen van Dynamische Mens-Scène Interactiemodellering

Scaling Up Dynamic Human-Scene Interaction Modeling

March 13, 2024
Auteurs: Nan Jiang, Zhiyuan Zhang, Hongjie Li, Xiaoxuan Ma, Zan Wang, Yixin Chen, Tengyu Liu, Yixin Zhu, Siyuan Huang
cs.AI

Samenvatting

Om de uitdagingen van dataschaarste en geavanceerde bewegingsynthese in de modellering van mens-scène-interacties aan te pakken, introduceren we de TRUMANS-dataset samen met een nieuwe methode voor HSI-bewegingsynthese. TRUMANS geldt als de meest uitgebreide motion-captured HSI-dataset die momenteel beschikbaar is, met meer dan 15 uur aan menselijke interacties in 100 binnenruimtes. Het legt gedetailleerd volledige lichaamsbewegingen van mensen en dynamiek op objectniveau vast, met een focus op de realiteit van contact. Deze dataset wordt verder uitgebreid door fysieke omgevingen om te zetten in exacte virtuele modellen en uitgebreide augmentaties toe te passen op het uiterlijk en de beweging van zowel mensen als objecten, terwijl de interactiegetrouwheid behouden blijft. Met behulp van TRUMANS ontwikkelen we een op diffusie gebaseerd autoregressief model dat efficiënt HSI-sequenties van elke lengte genereert, waarbij zowel de context van de scène als de beoogde acties in aanmerking worden genomen. In experimenten toont onze aanpak opmerkelijke zero-shot generaliseerbaarheid op een reeks 3D-scène-datasets (bijv. PROX, Replica, ScanNet, ScanNet++), waarbij bewegingen worden geproduceerd die nauw aansluiten bij originele motion-captured sequenties, zoals bevestigd door kwantitatieve experimenten en menselijke studies.
English
Confronting the challenges of data scarcity and advanced motion synthesis in human-scene interaction modeling, we introduce the TRUMANS dataset alongside a novel HSI motion synthesis method. TRUMANS stands as the most comprehensive motion-captured HSI dataset currently available, encompassing over 15 hours of human interactions across 100 indoor scenes. It intricately captures whole-body human motions and part-level object dynamics, focusing on the realism of contact. This dataset is further scaled up by transforming physical environments into exact virtual models and applying extensive augmentations to appearance and motion for both humans and objects while maintaining interaction fidelity. Utilizing TRUMANS, we devise a diffusion-based autoregressive model that efficiently generates HSI sequences of any length, taking into account both scene context and intended actions. In experiments, our approach shows remarkable zero-shot generalizability on a range of 3D scene datasets (e.g., PROX, Replica, ScanNet, ScanNet++), producing motions that closely mimic original motion-captured sequences, as confirmed by quantitative experiments and human studies.
PDF151December 15, 2024