Agente-a-Simulación: Aprendizaje de Modelos de Comportamiento Interactivo a partir de Videos Longitudinales Informales
Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos
October 21, 2024
Autores: Gengshan Yang, Andrea Bajcsy, Shunsuke Saito, Angjoo Kanazawa
cs.AI
Resumen
Presentamos Agent-to-Sim (ATS), un marco para aprender modelos de comportamiento interactivo de agentes 3D a partir de colecciones de videos longitudinales casuales. A diferencia de trabajos anteriores que dependen de seguimiento basado en marcadores y cámaras multivista, ATS aprende comportamientos naturales de agentes animales y humanos de forma no invasiva a través de observaciones en video grabadas a lo largo de un largo período de tiempo (por ejemplo, un mes) en un único entorno. Modelar el comportamiento 3D de un agente requiere un seguimiento 3D persistente (por ejemplo, saber qué punto corresponde a cuál) a lo largo de un largo período de tiempo. Para obtener estos datos, desarrollamos un método de registro de grueso a fino que sigue al agente y la cámara a lo largo del tiempo a través de un espacio 3D canónico, lo que resulta en una representación espacio-temporal 4D completa y persistente. Luego entrenamos un modelo generativo de comportamientos de agentes utilizando datos emparejados de percepción y movimiento de un agente extraídos de la reconstrucción 4D. ATS permite la transferencia de real a simulado desde grabaciones de video de un agente a un simulador de comportamiento interactivo. Demostramos resultados en mascotas (por ejemplo, gato, perro, conejo) y humanos a partir de videos monoculares RGBD capturados por un teléfono inteligente.
English
We present Agent-to-Sim (ATS), a framework for learning interactive behavior
models of 3D agents from casual longitudinal video collections. Different from
prior works that rely on marker-based tracking and multiview cameras, ATS
learns natural behaviors of animal and human agents non-invasively through
video observations recorded over a long time-span (e.g., a month) in a single
environment. Modeling 3D behavior of an agent requires persistent 3D tracking
(e.g., knowing which point corresponds to which) over a long time period. To
obtain such data, we develop a coarse-to-fine registration method that tracks
the agent and the camera over time through a canonical 3D space, resulting in a
complete and persistent spacetime 4D representation. We then train a generative
model of agent behaviors using paired data of perception and motion of an agent
queried from the 4D reconstruction. ATS enables real-to-sim transfer from video
recordings of an agent to an interactive behavior simulator. We demonstrate
results on pets (e.g., cat, dog, bunny) and human given monocular RGBD videos
captured by a smartphone.Summary
AI-Generated Summary