BEHAVIOR Vision Suite: Generazione Personalizzata di Dataset tramite Simulazione
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation
May 15, 2024
Autori: Yunhao Ge, Yihe Tang, Jiashu Xu, Cem Gokmen, Chengshu Li, Wensi Ai, Benjamin Jose Martinez, Arman Aydin, Mona Anvari, Ayush K Chakravarthy, Hong-Xing Yu, Josiah Wong, Sanjana Srivastava, Sharon Lee, Shengxin Zha, Laurent Itti, Yunzhu Li, Roberto Martín-Martín, Miao Liu, Pengchuan Zhang, Ruohan Zhang, Li Fei-Fei, Jiajun Wu
cs.AI
Abstract
La valutazione sistematica e la comprensione dei modelli di visione artificiale in condizioni variabili richiedono grandi quantità di dati con etichette complete e personalizzate, un requisito che raramente viene soddisfatto dai dataset di visione del mondo reale. Sebbene i generatori di dati sintetici attuali offrano un'alternativa promettente, in particolare per i task di intelligenza artificiale incarnata, spesso risultano inadeguati per i task di visione artificiale a causa della bassa qualità degli asset e del rendering, della diversità limitata e delle proprietà fisiche irrealistiche. Introduciamo il BEHAVIOR Vision Suite (BVS), un insieme di strumenti e asset per generare dati sintetici completamente personalizzati per la valutazione sistematica dei modelli di visione artificiale, basato sul nuovo benchmark di intelligenza artificiale incarnata, BEHAVIOR-1K. BVS supporta un ampio numero di parametri regolabili a livello di scena (ad esempio, illuminazione, posizionamento degli oggetti), a livello di oggetto (ad esempio, configurazione dei giunti, attributi come "riempito" e "piegato") e a livello di camera (ad esempio, campo visivo, lunghezza focale). I ricercatori possono variare arbitrariamente questi parametri durante la generazione dei dati per condurre esperimenti controllati. Presentiamo tre scenari applicativi di esempio: valutare sistematicamente la robustezza dei modelli lungo diversi assi continui di cambiamento di dominio, valutare i modelli di comprensione della scena sullo stesso set di immagini, e addestrare e valutare il trasferimento da simulazione a realtà per un nuovo task di visione: la previsione di stati unari e binari. Sito web del progetto: https://behavior-vision-suite.github.io/
English
The systematic evaluation and understanding of computer vision models under
varying conditions require large amounts of data with comprehensive and
customized labels, which real-world vision datasets rarely satisfy. While
current synthetic data generators offer a promising alternative, particularly
for embodied AI tasks, they often fall short for computer vision tasks due to
low asset and rendering quality, limited diversity, and unrealistic physical
properties. We introduce the BEHAVIOR Vision Suite (BVS), a set of tools and
assets to generate fully customized synthetic data for systematic evaluation of
computer vision models, based on the newly developed embodied AI benchmark,
BEHAVIOR-1K. BVS supports a large number of adjustable parameters at the scene
level (e.g., lighting, object placement), the object level (e.g., joint
configuration, attributes such as "filled" and "folded"), and the camera level
(e.g., field of view, focal length). Researchers can arbitrarily vary these
parameters during data generation to perform controlled experiments. We
showcase three example application scenarios: systematically evaluating the
robustness of models across different continuous axes of domain shift,
evaluating scene understanding models on the same set of images, and training
and evaluating simulation-to-real transfer for a novel vision task: unary and
binary state prediction. Project website:
https://behavior-vision-suite.github.io/