BEHAVIOR Vision Suite: Anpassbare Datensatzerzeugung über Simulation
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation
May 15, 2024
Autoren: Yunhao Ge, Yihe Tang, Jiashu Xu, Cem Gokmen, Chengshu Li, Wensi Ai, Benjamin Jose Martinez, Arman Aydin, Mona Anvari, Ayush K Chakravarthy, Hong-Xing Yu, Josiah Wong, Sanjana Srivastava, Sharon Lee, Shengxin Zha, Laurent Itti, Yunzhu Li, Roberto Martín-Martín, Miao Liu, Pengchuan Zhang, Ruohan Zhang, Li Fei-Fei, Jiajun Wu
cs.AI
Zusammenfassung
Die systematische Bewertung und das Verständnis von Computer-Vision-Modellen unter sich ändernden Bedingungen erfordern große Mengen an Daten mit umfassenden und individuellen Labels, die von realen Vision-Datensätzen selten erfüllt werden. Während aktuelle synthetische Datengeneratoren eine vielversprechende Alternative bieten, insbesondere für verkörperte KI-Aufgaben, erreichen sie oft nicht das erforderliche Niveau für Computer-Vision-Aufgaben aufgrund geringer Ressourcen- und Renderqualität, begrenzter Vielfalt und unrealistischer physikalischer Eigenschaften. Wir stellen die BEHAVIOR Vision Suite (BVS) vor, ein Set von Tools und Ressourcen zur Erzeugung vollständig individueller synthetischer Daten für die systematische Bewertung von Computer-Vision-Modellen, basierend auf dem neu entwickelten verkörperten KI-Benchmark, BEHAVIOR-1K. BVS unterstützt eine große Anzahl an einstellbaren Parametern auf der Szenenebene (z.B. Beleuchtung, Objektplatzierung), der Objektebene (z.B. Gelenkkonfiguration, Attribute wie "gefüllt" und "gefaltet") und der Kamerabene (z.B. Sichtfeld, Brennweite). Forscher können diese Parameter beliebig variieren während der Datenerzeugung, um kontrollierte Experimente durchzuführen. Wir präsentieren drei Beispielanwendungsszenarien: die systematische Bewertung der Robustheit von Modellen über verschiedene kontinuierliche Achsen des Domänenwechsels, die Bewertung von Szenenverständnis-Modellen anhand desselben Bildersatzes sowie das Training und die Bewertung der Simulation-zu-Real-Übertragung für eine neuartige Vision-Aufgabe: Vorhersage von ein- und zweistufigen Zuständen. Projektwebsite: https://behavior-vision-suite.github.io/
English
The systematic evaluation and understanding of computer vision models under
varying conditions require large amounts of data with comprehensive and
customized labels, which real-world vision datasets rarely satisfy. While
current synthetic data generators offer a promising alternative, particularly
for embodied AI tasks, they often fall short for computer vision tasks due to
low asset and rendering quality, limited diversity, and unrealistic physical
properties. We introduce the BEHAVIOR Vision Suite (BVS), a set of tools and
assets to generate fully customized synthetic data for systematic evaluation of
computer vision models, based on the newly developed embodied AI benchmark,
BEHAVIOR-1K. BVS supports a large number of adjustable parameters at the scene
level (e.g., lighting, object placement), the object level (e.g., joint
configuration, attributes such as "filled" and "folded"), and the camera level
(e.g., field of view, focal length). Researchers can arbitrarily vary these
parameters during data generation to perform controlled experiments. We
showcase three example application scenarios: systematically evaluating the
robustness of models across different continuous axes of domain shift,
evaluating scene understanding models on the same set of images, and training
and evaluating simulation-to-real transfer for a novel vision task: unary and
binary state prediction. Project website:
https://behavior-vision-suite.github.io/Summary
AI-Generated Summary