Agente-a-Simulazione: Apprendimento di Modelli di Comportamento Interattivo da Video Longitudinali Informali

Abstract

Presentiamo Agent-to-Sim (ATS), un framework per apprendere modelli di comportamento interattivo di agenti 3D da collezioni video longitudinali informali. Diversamente dai lavori precedenti che si basano sul tracciamento basato su marker e telecamere multiview, ATS apprende comportamenti naturali di agenti animali e umani in modo non invasivo attraverso osservazioni video registrate su un lungo periodo di tempo (ad esempio, un mese) in un singolo ambiente. Modellare il comportamento 3D di un agente richiede un tracciamento 3D persistente (ad esempio, conoscere quale punto corrisponde a quale) su un lungo periodo di tempo. Per ottenere tali dati, sviluppiamo un metodo di registrazione da grezzo a fine che traccia l'agente e la telecamera nel tempo attraverso uno spazio 3D canonico, risultando in una rappresentazione spaziotemporale 4D completa e persistente. Successivamente addestriamo un modello generativo di comportamenti degli agenti utilizzando dati accoppiati di percezione e movimento di un agente interrogati dalla ricostruzione 4D. ATS consente il trasferimento da reale a simulato da registrazioni video di un agente a un simulatore di comportamento interattivo. Dimostriamo i risultati su animali domestici (ad esempio, gatto, cane, coniglio) e umani dati video RGBD monoculare catturati da uno smartphone.

English

We present Agent-to-Sim (ATS), a framework for learning interactive behavior models of 3D agents from casual longitudinal video collections. Different from prior works that rely on marker-based tracking and multiview cameras, ATS learns natural behaviors of animal and human agents non-invasively through video observations recorded over a long time-span (e.g., a month) in a single environment. Modeling 3D behavior of an agent requires persistent 3D tracking (e.g., knowing which point corresponds to which) over a long time period. To obtain such data, we develop a coarse-to-fine registration method that tracks the agent and the camera over time through a canonical 3D space, resulting in a complete and persistent spacetime 4D representation. We then train a generative model of agent behaviors using paired data of perception and motion of an agent queried from the 4D reconstruction. ATS enables real-to-sim transfer from video recordings of an agent to an interactive behavior simulator. We demonstrate results on pets (e.g., cat, dog, bunny) and human given monocular RGBD videos captured by a smartphone.

Agente-a-Simulazione: Apprendimento di Modelli di Comportamento Interattivo da Video Longitudinali Informali

Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos

Abstract

Summary

Support

Support