Agente-a-Simulación: Aprendizaje de Modelos de Comportamiento Interactivo a partir de Videos Longitudinales Informales

Resumen

Presentamos Agent-to-Sim (ATS), un marco para aprender modelos de comportamiento interactivo de agentes 3D a partir de colecciones de videos longitudinales casuales. A diferencia de trabajos anteriores que dependen de seguimiento basado en marcadores y cámaras multivista, ATS aprende comportamientos naturales de agentes animales y humanos de forma no invasiva a través de observaciones en video grabadas a lo largo de un largo período de tiempo (por ejemplo, un mes) en un único entorno. Modelar el comportamiento 3D de un agente requiere un seguimiento 3D persistente (por ejemplo, saber qué punto corresponde a cuál) a lo largo de un largo período de tiempo. Para obtener estos datos, desarrollamos un método de registro de grueso a fino que sigue al agente y la cámara a lo largo del tiempo a través de un espacio 3D canónico, lo que resulta en una representación espacio-temporal 4D completa y persistente. Luego entrenamos un modelo generativo de comportamientos de agentes utilizando datos emparejados de percepción y movimiento de un agente extraídos de la reconstrucción 4D. ATS permite la transferencia de real a simulado desde grabaciones de video de un agente a un simulador de comportamiento interactivo. Demostramos resultados en mascotas (por ejemplo, gato, perro, conejo) y humanos a partir de videos monoculares RGBD capturados por un teléfono inteligente.

English

We present Agent-to-Sim (ATS), a framework for learning interactive behavior models of 3D agents from casual longitudinal video collections. Different from prior works that rely on marker-based tracking and multiview cameras, ATS learns natural behaviors of animal and human agents non-invasively through video observations recorded over a long time-span (e.g., a month) in a single environment. Modeling 3D behavior of an agent requires persistent 3D tracking (e.g., knowing which point corresponds to which) over a long time period. To obtain such data, we develop a coarse-to-fine registration method that tracks the agent and the camera over time through a canonical 3D space, resulting in a complete and persistent spacetime 4D representation. We then train a generative model of agent behaviors using paired data of perception and motion of an agent queried from the 4D reconstruction. ATS enables real-to-sim transfer from video recordings of an agent to an interactive behavior simulator. We demonstrate results on pets (e.g., cat, dog, bunny) and human given monocular RGBD videos captured by a smartphone.

Agente-a-Simulación: Aprendizaje de Modelos de Comportamiento Interactivo a partir de Videos Longitudinales Informales

Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos

Resumen

Support