Beheersbare Mens-Object Interactie Synthese
Controllable Human-Object Interaction Synthesis
December 6, 2023
Auteurs: Jiaman Li, Alexander Clegg, Roozbeh Mottaghi, Jiajun Wu, Xavier Puig, C. Karen Liu
cs.AI
Samenvatting
Het synthetiseren van semantisch bewuste, langetermijn mens-object interacties is cruciaal voor het simuleren van realistische menselijke gedragingen. In dit werk pakken we het uitdagende probleem aan van het genereren van gesynchroniseerde objectbewegingen en menselijke bewegingen die worden gestuurd door taal beschrijvingen in 3D-scènes. We stellen Controllable Human-Object Interaction Synthesis (CHOIS) voor, een aanpak die objectbewegingen en menselijke bewegingen gelijktijdig genereert met behulp van een conditioneel diffusiemodel, gegeven een taal beschrijving, initiële object- en menselijke toestanden, en spaarzame object waypoints. Terwijl taal beschrijvingen stijl en intentie informeren, verankeren waypoints de beweging in de scène en kunnen ze effectief worden geëxtraheerd met behulp van hoogwaardige planningsmethoden. Het naïef toepassen van een diffusiemodel faalt in het voorspellen van objectbewegingen die zijn afgestemd op de ingevoerde waypoints en kan niet de realiteit van interacties waarborgen die precies hand-object contact en passend contact met de vloer vereisen. Om deze problemen te overwinnen, introduceren we een object geometrie verlies als aanvullende supervisie om de afstemming tussen gegenereerde objectbewegingen en ingevoerde object waypoints te verbeteren. Daarnaast ontwerpen we begeleidingstermen om contactbeperkingen af te dwingen tijdens het bemonsteringsproces van het getrainde diffusiemodel.
English
Synthesizing semantic-aware, long-horizon, human-object interaction is
critical to simulate realistic human behaviors. In this work, we address the
challenging problem of generating synchronized object motion and human motion
guided by language descriptions in 3D scenes. We propose Controllable
Human-Object Interaction Synthesis (CHOIS), an approach that generates object
motion and human motion simultaneously using a conditional diffusion model
given a language description, initial object and human states, and sparse
object waypoints. While language descriptions inform style and intent,
waypoints ground the motion in the scene and can be effectively extracted using
high-level planning methods. Naively applying a diffusion model fails to
predict object motion aligned with the input waypoints and cannot ensure the
realism of interactions that require precise hand-object contact and
appropriate contact grounded by the floor. To overcome these problems, we
introduce an object geometry loss as additional supervision to improve the
matching between generated object motion and input object waypoints. In
addition, we design guidance terms to enforce contact constraints during the
sampling process of the trained diffusion model.