Понимание взаимодействия с 3D-объектами на основе одного изображения
Understanding 3D Object Interaction from a Single Image
May 16, 2023
Авторы: Shengyi Qian, David F. Fouhey
cs.AI
Аннотация
Люди легко воспринимают отдельное изображение как отображение множества потенциальных объектов, с которыми возможно взаимодействие. Мы используем этот навык для планирования наших взаимодействий с окружающим миром и ускорения понимания новых объектов без необходимости непосредственного взаимодействия с ними. В данной работе мы стремимся наделить машины аналогичной способностью, чтобы интеллектуальные агенты могли более эффективно исследовать трёхмерные сцены или манипулировать объектами. Наш подход основан на модели, использующей архитектуру трансформера, которая предсказывает трёхмерное местоположение, физические свойства и аффордансы объектов. Для обучения и проверки нашей модели мы собрали набор данных, включающий интернет-видео, эгоцентричные видео и изображения интерьеров. Наша модель демонстрирует высокую производительность на наших данных и хорошо обобщается на данные, связанные с робототехникой.
English
Humans can easily understand a single image as depicting multiple potential
objects permitting interaction. We use this skill to plan our interactions with
the world and accelerate understanding new objects without engaging in
interaction. In this paper, we would like to endow machines with the similar
ability, so that intelligent agents can better explore the 3D scene or
manipulate objects. Our approach is a transformer-based model that predicts the
3D location, physical properties and affordance of objects. To power this
model, we collect a dataset with Internet videos, egocentric videos and indoor
images to train and validate our approach. Our model yields strong performance
on our data, and generalizes well to robotics data.