BEHAVIOR Vision Suite : Génération de jeux de données personnalisables via simulation

papers.abstract

L'évaluation systématique et la compréhension des modèles de vision par ordinateur dans des conditions variables nécessitent de grandes quantités de données avec des annotations complètes et personnalisées, ce que les ensembles de données visuelles du monde réel satisfont rarement. Bien que les générateurs de données synthétiques actuels offrent une alternative prometteuse, en particulier pour les tâches d'IA incarnée, ils sont souvent insuffisants pour les tâches de vision par ordinateur en raison de la faible qualité des ressources et du rendu, de la diversité limitée et des propriétés physiques irréalistes. Nous présentons le BEHAVIOR Vision Suite (BVS), un ensemble d'outils et de ressources pour générer des données synthétiques entièrement personnalisées afin d'évaluer systématiquement les modèles de vision par ordinateur, basé sur le nouveau benchmark d'IA incarnée, BEHAVIOR-1K. BVS prend en charge un grand nombre de paramètres ajustables au niveau de la scène (par exemple, éclairage, placement des objets), au niveau des objets (par exemple, configuration des articulations, attributs tels que "rempli" et "plié") et au niveau de la caméra (par exemple, champ de vision, distance focale). Les chercheurs peuvent varier arbitrairement ces paramètres lors de la génération des données pour effectuer des expériences contrôlées. Nous illustrons trois scénarios d'application exemplaires : évaluer systématiquement la robustesse des modèles à travers différents axes continus de décalage de domaine, évaluer les modèles de compréhension de scène sur le même ensemble d'images, et entraîner et évaluer le transfert de la simulation à la réalité pour une nouvelle tâche visuelle : la prédiction d'états unaires et binaires. Site web du projet : https://behavior-vision-suite.github.io/

English

The systematic evaluation and understanding of computer vision models under varying conditions require large amounts of data with comprehensive and customized labels, which real-world vision datasets rarely satisfy. While current synthetic data generators offer a promising alternative, particularly for embodied AI tasks, they often fall short for computer vision tasks due to low asset and rendering quality, limited diversity, and unrealistic physical properties. We introduce the BEHAVIOR Vision Suite (BVS), a set of tools and assets to generate fully customized synthetic data for systematic evaluation of computer vision models, based on the newly developed embodied AI benchmark, BEHAVIOR-1K. BVS supports a large number of adjustable parameters at the scene level (e.g., lighting, object placement), the object level (e.g., joint configuration, attributes such as "filled" and "folded"), and the camera level (e.g., field of view, focal length). Researchers can arbitrarily vary these parameters during data generation to perform controlled experiments. We showcase three example application scenarios: systematically evaluating the robustness of models across different continuous axes of domain shift, evaluating scene understanding models on the same set of images, and training and evaluating simulation-to-real transfer for a novel vision task: unary and binary state prediction. Project website: https://behavior-vision-suite.github.io/

BEHAVIOR Vision Suite : Génération de jeux de données personnalisables via simulation

BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation

papers.abstract

Support