Agente-a-Simulazione: Apprendimento di Modelli di Comportamento Interattivo da Video Longitudinali Informali
Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos
October 21, 2024
Autori: Gengshan Yang, Andrea Bajcsy, Shunsuke Saito, Angjoo Kanazawa
cs.AI
Abstract
Presentiamo Agent-to-Sim (ATS), un framework per apprendere modelli di comportamento interattivo di agenti 3D da collezioni video longitudinali informali. Diversamente dai lavori precedenti che si basano sul tracciamento basato su marker e telecamere multiview, ATS apprende comportamenti naturali di agenti animali e umani in modo non invasivo attraverso osservazioni video registrate su un lungo periodo di tempo (ad esempio, un mese) in un singolo ambiente. Modellare il comportamento 3D di un agente richiede un tracciamento 3D persistente (ad esempio, conoscere quale punto corrisponde a quale) su un lungo periodo di tempo. Per ottenere tali dati, sviluppiamo un metodo di registrazione da grezzo a fine che traccia l'agente e la telecamera nel tempo attraverso uno spazio 3D canonico, risultando in una rappresentazione spaziotemporale 4D completa e persistente. Successivamente addestriamo un modello generativo di comportamenti degli agenti utilizzando dati accoppiati di percezione e movimento di un agente interrogati dalla ricostruzione 4D. ATS consente il trasferimento da reale a simulato da registrazioni video di un agente a un simulatore di comportamento interattivo. Dimostriamo i risultati su animali domestici (ad esempio, gatto, cane, coniglio) e umani dati video RGBD monoculare catturati da uno smartphone.
English
We present Agent-to-Sim (ATS), a framework for learning interactive behavior
models of 3D agents from casual longitudinal video collections. Different from
prior works that rely on marker-based tracking and multiview cameras, ATS
learns natural behaviors of animal and human agents non-invasively through
video observations recorded over a long time-span (e.g., a month) in a single
environment. Modeling 3D behavior of an agent requires persistent 3D tracking
(e.g., knowing which point corresponds to which) over a long time period. To
obtain such data, we develop a coarse-to-fine registration method that tracks
the agent and the camera over time through a canonical 3D space, resulting in a
complete and persistent spacetime 4D representation. We then train a generative
model of agent behaviors using paired data of perception and motion of an agent
queried from the 4D reconstruction. ATS enables real-to-sim transfer from video
recordings of an agent to an interactive behavior simulator. We demonstrate
results on pets (e.g., cat, dog, bunny) and human given monocular RGBD videos
captured by a smartphone.Summary
AI-Generated Summary