Ampliamento della Modellizzazione delle Interazioni Dinamiche Uomo-Scena
Scaling Up Dynamic Human-Scene Interaction Modeling
March 13, 2024
Autori: Nan Jiang, Zhiyuan Zhang, Hongjie Li, Xiaoxuan Ma, Zan Wang, Yixin Chen, Tengyu Liu, Yixin Zhu, Siyuan Huang
cs.AI
Abstract
Affrontando le sfide della scarsità di dati e della sintesi avanzata del movimento nella modellazione delle interazioni uomo-ambiente, introduciamo il dataset TRUMANS insieme a un nuovo metodo di sintesi del movimento per le interazioni uomo-scena (HSI). TRUMANS rappresenta il dataset HSI basato su motion capture più completo attualmente disponibile, comprendendo oltre 15 ore di interazioni umane in 100 ambienti interni. Cattura in modo dettagliato i movimenti corporei completi e le dinamiche a livello di parti degli oggetti, con un focus sul realismo del contatto. Questo dataset viene ulteriormente ampliato trasformando ambienti fisici in modelli virtuali esatti e applicando estese aumentazioni all'aspetto e al movimento sia per gli esseri umani che per gli oggetti, mantenendo al contempo la fedeltà dell'interazione. Utilizzando TRUMANS, progettiamo un modello autoregressivo basato sulla diffusione che genera in modo efficiente sequenze HSI di qualsiasi lunghezza, tenendo conto sia del contesto della scena che delle azioni intenzionali. Negli esperimenti, il nostro approccio dimostra una notevole generalizzabilità zero-shot su una gamma di dataset di scene 3D (ad esempio, PROX, Replica, ScanNet, ScanNet++), producendo movimenti che si avvicinano molto alle sequenze originali catturate con motion capture, come confermato da esperimenti quantitativi e studi umani.
English
Confronting the challenges of data scarcity and advanced motion synthesis in
human-scene interaction modeling, we introduce the TRUMANS dataset alongside a
novel HSI motion synthesis method. TRUMANS stands as the most comprehensive
motion-captured HSI dataset currently available, encompassing over 15 hours of
human interactions across 100 indoor scenes. It intricately captures whole-body
human motions and part-level object dynamics, focusing on the realism of
contact. This dataset is further scaled up by transforming physical
environments into exact virtual models and applying extensive augmentations to
appearance and motion for both humans and objects while maintaining interaction
fidelity. Utilizing TRUMANS, we devise a diffusion-based autoregressive model
that efficiently generates HSI sequences of any length, taking into account
both scene context and intended actions. In experiments, our approach shows
remarkable zero-shot generalizability on a range of 3D scene datasets (e.g.,
PROX, Replica, ScanNet, ScanNet++), producing motions that closely mimic
original motion-captured sequences, as confirmed by quantitative experiments
and human studies.