ChatPaper.aiChatPaper

Агент-к-Симулятору: Обучение моделей интерактивного поведения по непринужденным продолжительным видеозаписям

Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos

October 21, 2024
Авторы: Gengshan Yang, Andrea Bajcsy, Shunsuke Saito, Angjoo Kanazawa
cs.AI

Аннотация

Мы представляем Agent-to-Sim (ATS), фреймворк для изучения моделей интерактивного поведения 3D агентов по непринужденным видеозаписям продолжительного характера. В отличие от предыдущих работ, основанных на маркерном отслеживании и многокамерной съемке, ATS изучает естественное поведение животных и человеческих агентов неинвазивно через видеонаблюдения, записанные в течение длительного времени (например, месяц) в одной среде. Моделирование 3D поведения агента требует постоянного 3D отслеживания (например, знание, какая точка соответствует какой) на протяжении длительного временного интервала. Для получения таких данных мы разработали метод грубой и тонкой регистрации, который отслеживает агента и камеру со временем через каноническое 3D пространство, что приводит к полному и постоянному пространственно-временному 4D представлению. Затем мы обучаем генеративную модель поведения агента, используя сопоставленные данные восприятия и движения агента, запрошенные из 4D реконструкции. ATS обеспечивает перенос из реального мира в симулятор поведения по видеозаписям агента. Мы продемонстрировали результаты на домашних животных (например, кошка, собака, кролик) и человеке, используя монокулярные RGBD видеозаписи, сделанные смартфоном.
English
We present Agent-to-Sim (ATS), a framework for learning interactive behavior models of 3D agents from casual longitudinal video collections. Different from prior works that rely on marker-based tracking and multiview cameras, ATS learns natural behaviors of animal and human agents non-invasively through video observations recorded over a long time-span (e.g., a month) in a single environment. Modeling 3D behavior of an agent requires persistent 3D tracking (e.g., knowing which point corresponds to which) over a long time period. To obtain such data, we develop a coarse-to-fine registration method that tracks the agent and the camera over time through a canonical 3D space, resulting in a complete and persistent spacetime 4D representation. We then train a generative model of agent behaviors using paired data of perception and motion of an agent queried from the 4D reconstruction. ATS enables real-to-sim transfer from video recordings of an agent to an interactive behavior simulator. We demonstrate results on pets (e.g., cat, dog, bunny) and human given monocular RGBD videos captured by a smartphone.

Summary

AI-Generated Summary

PDF52November 16, 2024