Skalierung der Modellierung dynamischer Interaktionen zwischen Menschen und Szenen
Scaling Up Dynamic Human-Scene Interaction Modeling
March 13, 2024
Autoren: Nan Jiang, Zhiyuan Zhang, Hongjie Li, Xiaoxuan Ma, Zan Wang, Yixin Chen, Tengyu Liu, Yixin Zhu, Siyuan Huang
cs.AI
Zusammenfassung
Um den Herausforderungen der Datenknappheit und der fortgeschrittenen Bewegungssynthese bei der Modellierung der Interaktion zwischen Mensch und Szene zu begegnen, stellen wir den TRUMANS-Datensatz zusammen mit einer neuartigen HSI-Bewegungssynthesemethode vor. TRUMANS gilt als der umfassendste motion-capture HSI-Datensatz, der derzeit verfügbar ist, und umfasst über 15 Stunden menschlicher Interaktionen in 100 Innenräumen. Er erfasst detailliert Ganzkörperbewegungen von Menschen und die Dynamik von Objekten auf Teilebene, wobei der Realismus des Kontakts im Fokus steht. Dieser Datensatz wird weiter ausgebaut, indem physische Umgebungen in exakte virtuelle Modelle umgewandelt und umfangreiche Augmentationen sowohl für das Aussehen als auch die Bewegung von Menschen und Objekten angewendet werden, wobei die Interaktionsfähigkeit erhalten bleibt. Unter Verwendung von TRUMANS entwickeln wir ein diffusionsbasiertes autoregressives Modell, das effizient HSI-Sequenzen beliebiger Länge generiert, unter Berücksichtigung des Szenenkontexts und der beabsichtigten Handlungen. In Experimenten zeigt unser Ansatz eine bemerkenswerte Generalisierbarkeit ohne Trainingsdaten auf einer Reihe von 3D-Szenendatensätzen (z. B. PROX, Replica, ScanNet, ScanNet++), wobei Bewegungen erzeugt werden, die Original motion-capture Sequenzen eng nachahmen, wie durch quantitative Experimente und Studien mit menschlichen Probanden bestätigt wird.
English
Confronting the challenges of data scarcity and advanced motion synthesis in
human-scene interaction modeling, we introduce the TRUMANS dataset alongside a
novel HSI motion synthesis method. TRUMANS stands as the most comprehensive
motion-captured HSI dataset currently available, encompassing over 15 hours of
human interactions across 100 indoor scenes. It intricately captures whole-body
human motions and part-level object dynamics, focusing on the realism of
contact. This dataset is further scaled up by transforming physical
environments into exact virtual models and applying extensive augmentations to
appearance and motion for both humans and objects while maintaining interaction
fidelity. Utilizing TRUMANS, we devise a diffusion-based autoregressive model
that efficiently generates HSI sequences of any length, taking into account
both scene context and intended actions. In experiments, our approach shows
remarkable zero-shot generalizability on a range of 3D scene datasets (e.g.,
PROX, Replica, ScanNet, ScanNet++), producing motions that closely mimic
original motion-captured sequences, as confirmed by quantitative experiments
and human studies.Summary
AI-Generated Summary