Sintesi controllata delle interazioni uomo-oggetto
Controllable Human-Object Interaction Synthesis
December 6, 2023
Autori: Jiaman Li, Alexander Clegg, Roozbeh Mottaghi, Jiajun Wu, Xavier Puig, C. Karen Liu
cs.AI
Abstract
La sintesi di interazioni uomo-oggetto semanticamente consapevoli e a lungo termine è fondamentale per simulare comportamenti umani realistici. In questo lavoro, affrontiamo il problema complesso di generare movimenti sincronizzati di oggetti e umani guidati da descrizioni linguistiche in scene 3D. Proponiamo CHOIS (Controllable Human-Object Interaction Synthesis), un approccio che genera simultaneamente il movimento degli oggetti e quello umano utilizzando un modello di diffusione condizionale, data una descrizione linguistica, gli stati iniziali dell'oggetto e dell'umano, e waypoint sparsi dell'oggetto. Mentre le descrizioni linguistiche informano lo stile e l'intento, i waypoint ancorano il movimento nella scena e possono essere efficacemente estratti utilizzando metodi di pianificazione di alto livello. Applicare in modo ingenuo un modello di diffusione fallisce nel prevedere il movimento dell'oggetto allineato con i waypoint di input e non può garantire il realismo delle interazioni che richiedono un contatto preciso mano-oggetto e un contatto appropriato ancorato al pavimento. Per superare questi problemi, introduciamo una perdita di geometria dell'oggetto come supervisione aggiuntiva per migliorare la corrispondenza tra il movimento generato dell'oggetto e i waypoint di input. Inoltre, progettiamo termini di guida per imporre vincoli di contatto durante il processo di campionamento del modello di diffusione addestrato.
English
Synthesizing semantic-aware, long-horizon, human-object interaction is
critical to simulate realistic human behaviors. In this work, we address the
challenging problem of generating synchronized object motion and human motion
guided by language descriptions in 3D scenes. We propose Controllable
Human-Object Interaction Synthesis (CHOIS), an approach that generates object
motion and human motion simultaneously using a conditional diffusion model
given a language description, initial object and human states, and sparse
object waypoints. While language descriptions inform style and intent,
waypoints ground the motion in the scene and can be effectively extracted using
high-level planning methods. Naively applying a diffusion model fails to
predict object motion aligned with the input waypoints and cannot ensure the
realism of interactions that require precise hand-object contact and
appropriate contact grounded by the floor. To overcome these problems, we
introduce an object geometry loss as additional supervision to improve the
matching between generated object motion and input object waypoints. In
addition, we design guidance terms to enforce contact constraints during the
sampling process of the trained diffusion model.