BEHAVIOR Vision Suite: Geração Personalizada de Conjuntos de Dados via Simulação
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation
May 15, 2024
Autores: Yunhao Ge, Yihe Tang, Jiashu Xu, Cem Gokmen, Chengshu Li, Wensi Ai, Benjamin Jose Martinez, Arman Aydin, Mona Anvari, Ayush K Chakravarthy, Hong-Xing Yu, Josiah Wong, Sanjana Srivastava, Sharon Lee, Shengxin Zha, Laurent Itti, Yunzhu Li, Roberto Martín-Martín, Miao Liu, Pengchuan Zhang, Ruohan Zhang, Li Fei-Fei, Jiajun Wu
cs.AI
Resumo
A avaliação sistemática e a compreensão de modelos de visão computacional sob
diversas condições exigem grandes quantidades de dados com rótulos abrangentes e
personalizados, algo que os conjuntos de dados de visão do mundo real raramente
satisfazem. Embora os geradores de dados sintéticos atuais ofereçam uma
alternativa promissora, especialmente para tarefas de IA incorporada, eles
frequentemente não atendem às necessidades das tarefas de visão computacional
devido à baixa qualidade de ativos e renderização, diversidade limitada e
propriedades físicas irrealistas. Apresentamos o BEHAVIOR Vision Suite (BVS),
um conjunto de ferramentas e ativos para gerar dados sintéticos totalmente
personalizados para a avaliação sistemática de modelos de visão computacional,
com base no novo benchmark de IA incorporada, BEHAVIOR-1K. O BVS suporta um
grande número de parâmetros ajustáveis no nível da cena (por exemplo,
iluminação, posicionamento de objetos), no nível do objeto (por exemplo,
configuração de juntas, atributos como "preenchido" e "dobrado") e no nível da
câmera (por exemplo, campo de visão, distância focal). Os pesquisadores podem
variar arbitrariamente esses parâmetros durante a geração de dados para realizar
experimentos controlados. Demonstramos três cenários de aplicação exemplares:
avaliar sistematicamente a robustez dos modelos em diferentes eixos contínuos de
mudança de domínio, avaliar modelos de compreensão de cenas no mesmo conjunto de
imagens e treinar e avaliar a transferência de simulação para o real em uma
nova tarefa de visão: previsão de estados unários e binários. Site do projeto:
https://behavior-vision-suite.github.io/
English
The systematic evaluation and understanding of computer vision models under
varying conditions require large amounts of data with comprehensive and
customized labels, which real-world vision datasets rarely satisfy. While
current synthetic data generators offer a promising alternative, particularly
for embodied AI tasks, they often fall short for computer vision tasks due to
low asset and rendering quality, limited diversity, and unrealistic physical
properties. We introduce the BEHAVIOR Vision Suite (BVS), a set of tools and
assets to generate fully customized synthetic data for systematic evaluation of
computer vision models, based on the newly developed embodied AI benchmark,
BEHAVIOR-1K. BVS supports a large number of adjustable parameters at the scene
level (e.g., lighting, object placement), the object level (e.g., joint
configuration, attributes such as "filled" and "folded"), and the camera level
(e.g., field of view, focal length). Researchers can arbitrarily vary these
parameters during data generation to perform controlled experiments. We
showcase three example application scenarios: systematically evaluating the
robustness of models across different continuous axes of domain shift,
evaluating scene understanding models on the same set of images, and training
and evaluating simulation-to-real transfer for a novel vision task: unary and
binary state prediction. Project website:
https://behavior-vision-suite.github.io/