Sintesi controllata delle interazioni uomo-oggetto

Abstract

La sintesi di interazioni uomo-oggetto semanticamente consapevoli e a lungo termine è fondamentale per simulare comportamenti umani realistici. In questo lavoro, affrontiamo il problema complesso di generare movimenti sincronizzati di oggetti e umani guidati da descrizioni linguistiche in scene 3D. Proponiamo CHOIS (Controllable Human-Object Interaction Synthesis), un approccio che genera simultaneamente il movimento degli oggetti e quello umano utilizzando un modello di diffusione condizionale, data una descrizione linguistica, gli stati iniziali dell'oggetto e dell'umano, e waypoint sparsi dell'oggetto. Mentre le descrizioni linguistiche informano lo stile e l'intento, i waypoint ancorano il movimento nella scena e possono essere efficacemente estratti utilizzando metodi di pianificazione di alto livello. Applicare in modo ingenuo un modello di diffusione fallisce nel prevedere il movimento dell'oggetto allineato con i waypoint di input e non può garantire il realismo delle interazioni che richiedono un contatto preciso mano-oggetto e un contatto appropriato ancorato al pavimento. Per superare questi problemi, introduciamo una perdita di geometria dell'oggetto come supervisione aggiuntiva per migliorare la corrispondenza tra il movimento generato dell'oggetto e i waypoint di input. Inoltre, progettiamo termini di guida per imporre vincoli di contatto durante il processo di campionamento del modello di diffusione addestrato.

English

Synthesizing semantic-aware, long-horizon, human-object interaction is critical to simulate realistic human behaviors. In this work, we address the challenging problem of generating synchronized object motion and human motion guided by language descriptions in 3D scenes. We propose Controllable Human-Object Interaction Synthesis (CHOIS), an approach that generates object motion and human motion simultaneously using a conditional diffusion model given a language description, initial object and human states, and sparse object waypoints. While language descriptions inform style and intent, waypoints ground the motion in the scene and can be effectively extracted using high-level planning methods. Naively applying a diffusion model fails to predict object motion aligned with the input waypoints and cannot ensure the realism of interactions that require precise hand-object contact and appropriate contact grounded by the floor. To overcome these problems, we introduce an object geometry loss as additional supervision to improve the matching between generated object motion and input object waypoints. In addition, we design guidance terms to enforce contact constraints during the sampling process of the trained diffusion model.