ChatPaper.aiChatPaper

Ampliamento della Modellizzazione delle Interazioni Dinamiche Uomo-Scena

Scaling Up Dynamic Human-Scene Interaction Modeling

March 13, 2024
Autori: Nan Jiang, Zhiyuan Zhang, Hongjie Li, Xiaoxuan Ma, Zan Wang, Yixin Chen, Tengyu Liu, Yixin Zhu, Siyuan Huang
cs.AI

Abstract

Affrontando le sfide della scarsità di dati e della sintesi avanzata del movimento nella modellazione delle interazioni uomo-ambiente, introduciamo il dataset TRUMANS insieme a un nuovo metodo di sintesi del movimento per le interazioni uomo-scena (HSI). TRUMANS rappresenta il dataset HSI basato su motion capture più completo attualmente disponibile, comprendendo oltre 15 ore di interazioni umane in 100 ambienti interni. Cattura in modo dettagliato i movimenti corporei completi e le dinamiche a livello di parti degli oggetti, con un focus sul realismo del contatto. Questo dataset viene ulteriormente ampliato trasformando ambienti fisici in modelli virtuali esatti e applicando estese aumentazioni all'aspetto e al movimento sia per gli esseri umani che per gli oggetti, mantenendo al contempo la fedeltà dell'interazione. Utilizzando TRUMANS, progettiamo un modello autoregressivo basato sulla diffusione che genera in modo efficiente sequenze HSI di qualsiasi lunghezza, tenendo conto sia del contesto della scena che delle azioni intenzionali. Negli esperimenti, il nostro approccio dimostra una notevole generalizzabilità zero-shot su una gamma di dataset di scene 3D (ad esempio, PROX, Replica, ScanNet, ScanNet++), producendo movimenti che si avvicinano molto alle sequenze originali catturate con motion capture, come confermato da esperimenti quantitativi e studi umani.
English
Confronting the challenges of data scarcity and advanced motion synthesis in human-scene interaction modeling, we introduce the TRUMANS dataset alongside a novel HSI motion synthesis method. TRUMANS stands as the most comprehensive motion-captured HSI dataset currently available, encompassing over 15 hours of human interactions across 100 indoor scenes. It intricately captures whole-body human motions and part-level object dynamics, focusing on the realism of contact. This dataset is further scaled up by transforming physical environments into exact virtual models and applying extensive augmentations to appearance and motion for both humans and objects while maintaining interaction fidelity. Utilizing TRUMANS, we devise a diffusion-based autoregressive model that efficiently generates HSI sequences of any length, taking into account both scene context and intended actions. In experiments, our approach shows remarkable zero-shot generalizability on a range of 3D scene datasets (e.g., PROX, Replica, ScanNet, ScanNet++), producing motions that closely mimic original motion-captured sequences, as confirmed by quantitative experiments and human studies.
PDF151December 15, 2024