BEHAVIOR Vision Suite : Génération de jeux de données personnalisables via simulation
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation
May 15, 2024
Auteurs: Yunhao Ge, Yihe Tang, Jiashu Xu, Cem Gokmen, Chengshu Li, Wensi Ai, Benjamin Jose Martinez, Arman Aydin, Mona Anvari, Ayush K Chakravarthy, Hong-Xing Yu, Josiah Wong, Sanjana Srivastava, Sharon Lee, Shengxin Zha, Laurent Itti, Yunzhu Li, Roberto Martín-Martín, Miao Liu, Pengchuan Zhang, Ruohan Zhang, Li Fei-Fei, Jiajun Wu
cs.AI
Résumé
L'évaluation systématique et la compréhension des modèles de vision par ordinateur dans des conditions variables nécessitent de grandes quantités de données avec des annotations complètes et personnalisées, ce que les ensembles de données visuelles du monde réel satisfont rarement. Bien que les générateurs de données synthétiques actuels offrent une alternative prometteuse, en particulier pour les tâches d'IA incarnée, ils sont souvent insuffisants pour les tâches de vision par ordinateur en raison de la faible qualité des ressources et du rendu, de la diversité limitée et des propriétés physiques irréalistes. Nous présentons le BEHAVIOR Vision Suite (BVS), un ensemble d'outils et de ressources pour générer des données synthétiques entièrement personnalisées afin d'évaluer systématiquement les modèles de vision par ordinateur, basé sur le nouveau benchmark d'IA incarnée, BEHAVIOR-1K. BVS prend en charge un grand nombre de paramètres ajustables au niveau de la scène (par exemple, éclairage, placement des objets), au niveau des objets (par exemple, configuration des articulations, attributs tels que "rempli" et "plié") et au niveau de la caméra (par exemple, champ de vision, distance focale). Les chercheurs peuvent varier arbitrairement ces paramètres lors de la génération des données pour effectuer des expériences contrôlées. Nous illustrons trois scénarios d'application exemplaires : évaluer systématiquement la robustesse des modèles à travers différents axes continus de décalage de domaine, évaluer les modèles de compréhension de scène sur le même ensemble d'images, et entraîner et évaluer le transfert de la simulation à la réalité pour une nouvelle tâche visuelle : la prédiction d'états unaires et binaires. Site web du projet : https://behavior-vision-suite.github.io/
English
The systematic evaluation and understanding of computer vision models under
varying conditions require large amounts of data with comprehensive and
customized labels, which real-world vision datasets rarely satisfy. While
current synthetic data generators offer a promising alternative, particularly
for embodied AI tasks, they often fall short for computer vision tasks due to
low asset and rendering quality, limited diversity, and unrealistic physical
properties. We introduce the BEHAVIOR Vision Suite (BVS), a set of tools and
assets to generate fully customized synthetic data for systematic evaluation of
computer vision models, based on the newly developed embodied AI benchmark,
BEHAVIOR-1K. BVS supports a large number of adjustable parameters at the scene
level (e.g., lighting, object placement), the object level (e.g., joint
configuration, attributes such as "filled" and "folded"), and the camera level
(e.g., field of view, focal length). Researchers can arbitrarily vary these
parameters during data generation to perform controlled experiments. We
showcase three example application scenarios: systematically evaluating the
robustness of models across different continuous axes of domain shift,
evaluating scene understanding models on the same set of images, and training
and evaluating simulation-to-real transfer for a novel vision task: unary and
binary state prediction. Project website:
https://behavior-vision-suite.github.io/Summary
AI-Generated Summary