BEHAVIOR Vision Suite: Generación de Conjuntos de Datos Personalizables mediante Simulación
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation
May 15, 2024
Autores: Yunhao Ge, Yihe Tang, Jiashu Xu, Cem Gokmen, Chengshu Li, Wensi Ai, Benjamin Jose Martinez, Arman Aydin, Mona Anvari, Ayush K Chakravarthy, Hong-Xing Yu, Josiah Wong, Sanjana Srivastava, Sharon Lee, Shengxin Zha, Laurent Itti, Yunzhu Li, Roberto Martín-Martín, Miao Liu, Pengchuan Zhang, Ruohan Zhang, Li Fei-Fei, Jiajun Wu
cs.AI
Resumen
La evaluación sistemática y la comprensión de los modelos de visión por computadora bajo condiciones variables requieren grandes cantidades de datos con etiquetas completas y personalizadas, algo que rara vez satisfacen los conjuntos de datos de visión del mundo real. Si bien los generadores de datos sintéticos actuales ofrecen una alternativa prometedora, particularmente para tareas de IA encarnada, a menudo no cumplen con las expectativas para tareas de visión por computadora debido a la baja calidad de los activos y el renderizado, la diversidad limitada y las propiedades físicas poco realistas. Presentamos el BEHAVIOR Vision Suite (BVS), un conjunto de herramientas y activos para generar datos sintéticos completamente personalizados para la evaluación sistemática de modelos de visión por computadora, basado en el nuevo punto de referencia de IA encarnada, BEHAVIOR-1K. BVS admite un gran número de parámetros ajustables a nivel de escena (por ejemplo, iluminación, colocación de objetos), a nivel de objeto (por ejemplo, configuración de articulaciones, atributos como "lleno" y "doblado") y a nivel de cámara (por ejemplo, campo de visión, distancia focal). Los investigadores pueden variar arbitrariamente estos parámetros durante la generación de datos para realizar experimentos controlados. Mostramos tres escenarios de aplicación de ejemplo: evaluar sistemáticamente la robustez de los modelos en diferentes ejes continuos de cambio de dominio, evaluar modelos de comprensión de escenas en el mismo conjunto de imágenes, y entrenar y evaluar la transferencia de simulación a realidad para una nueva tarea de visión: la predicción de estados unarios y binarios. Sitio web del proyecto: https://behavior-vision-suite.github.io/
English
The systematic evaluation and understanding of computer vision models under
varying conditions require large amounts of data with comprehensive and
customized labels, which real-world vision datasets rarely satisfy. While
current synthetic data generators offer a promising alternative, particularly
for embodied AI tasks, they often fall short for computer vision tasks due to
low asset and rendering quality, limited diversity, and unrealistic physical
properties. We introduce the BEHAVIOR Vision Suite (BVS), a set of tools and
assets to generate fully customized synthetic data for systematic evaluation of
computer vision models, based on the newly developed embodied AI benchmark,
BEHAVIOR-1K. BVS supports a large number of adjustable parameters at the scene
level (e.g., lighting, object placement), the object level (e.g., joint
configuration, attributes such as "filled" and "folded"), and the camera level
(e.g., field of view, focal length). Researchers can arbitrarily vary these
parameters during data generation to perform controlled experiments. We
showcase three example application scenarios: systematically evaluating the
robustness of models across different continuous axes of domain shift,
evaluating scene understanding models on the same set of images, and training
and evaluating simulation-to-real transfer for a novel vision task: unary and
binary state prediction. Project website:
https://behavior-vision-suite.github.io/Summary
AI-Generated Summary