BEHAVIOR Vision Suite: Aanpasbare Datasetgeneratie via Simulatie
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation
May 15, 2024
Auteurs: Yunhao Ge, Yihe Tang, Jiashu Xu, Cem Gokmen, Chengshu Li, Wensi Ai, Benjamin Jose Martinez, Arman Aydin, Mona Anvari, Ayush K Chakravarthy, Hong-Xing Yu, Josiah Wong, Sanjana Srivastava, Sharon Lee, Shengxin Zha, Laurent Itti, Yunzhu Li, Roberto Martín-Martín, Miao Liu, Pengchuan Zhang, Ruohan Zhang, Li Fei-Fei, Jiajun Wu
cs.AI
Samenvatting
De systematische evaluatie en het begrip van computervisie-modellen onder
verschillende omstandigheden vereisen grote hoeveelheden data met uitgebreide en
aangepaste labels, wat real-world visiedatasets zelden bieden. Hoewel
huidige synthetische datageneratoren een veelbelovend alternatief bieden, met name
voor embodied AI-taken, schieten ze vaak tekort voor computervisie-taken vanwege
lage asset- en renderingkwaliteit, beperkte diversiteit en onrealistische fysieke
eigenschappen. Wij introduceren de BEHAVIOR Vision Suite (BVS), een set tools en
assets om volledig aangepaste synthetische data te genereren voor de systematische
evaluatie van computervisie-modellen, gebaseerd op de nieuw ontwikkelde embodied
AI-benchmark, BEHAVIOR-1K. BVS ondersteunt een groot aantal instelbare parameters
op scèniveau (bijv. belichting, objectplaatsing), objectniveau (bijv. gewrichtsconfiguratie,
attributen zoals "gevuld" en "opgevouwen") en cameraniveau (bijv. gezichtsveld,
brandpuntsafstand). Onderzoekers kunnen deze parameters tijdens de datageneratie
willekeurig variëren om gecontroleerde experimenten uit te voeren. Wij demonstreren
drie voorbeeldtoepassingsscenario's: het systematisch evalueren van de robuustheid
van modellen over verschillende continue assen van domeinverschuiving, het evalueren
van scènebegripsmodellen op dezelfde set afbeeldingen, en het trainen en evalueren
van simulatie-naar-realiteit transfer voor een nieuwe visietaak: unaire en binaire
toestandvoorspelling. Projectwebsite:
https://behavior-vision-suite.github.io/
English
The systematic evaluation and understanding of computer vision models under
varying conditions require large amounts of data with comprehensive and
customized labels, which real-world vision datasets rarely satisfy. While
current synthetic data generators offer a promising alternative, particularly
for embodied AI tasks, they often fall short for computer vision tasks due to
low asset and rendering quality, limited diversity, and unrealistic physical
properties. We introduce the BEHAVIOR Vision Suite (BVS), a set of tools and
assets to generate fully customized synthetic data for systematic evaluation of
computer vision models, based on the newly developed embodied AI benchmark,
BEHAVIOR-1K. BVS supports a large number of adjustable parameters at the scene
level (e.g., lighting, object placement), the object level (e.g., joint
configuration, attributes such as "filled" and "folded"), and the camera level
(e.g., field of view, focal length). Researchers can arbitrarily vary these
parameters during data generation to perform controlled experiments. We
showcase three example application scenarios: systematically evaluating the
robustness of models across different continuous axes of domain shift,
evaluating scene understanding models on the same set of images, and training
and evaluating simulation-to-real transfer for a novel vision task: unary and
binary state prediction. Project website:
https://behavior-vision-suite.github.io/