ChatPaper.aiChatPaper

BEHAVIOR 비전 스위트: 시뮬레이션을 통한 맞춤형 데이터셋 생성

BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation

May 15, 2024
저자: Yunhao Ge, Yihe Tang, Jiashu Xu, Cem Gokmen, Chengshu Li, Wensi Ai, Benjamin Jose Martinez, Arman Aydin, Mona Anvari, Ayush K Chakravarthy, Hong-Xing Yu, Josiah Wong, Sanjana Srivastava, Sharon Lee, Shengxin Zha, Laurent Itti, Yunzhu Li, Roberto Martín-Martín, Miao Liu, Pengchuan Zhang, Ruohan Zhang, Li Fei-Fei, Jiajun Wu
cs.AI

초록

다양한 조건 하에서 컴퓨터 비전 모델을 체계적으로 평가하고 이해하기 위해서는 포괄적이고 맞춤화된 레이블이 포함된 대량의 데이터가 필요하지만, 실제 세계의 비전 데이터셋은 이를 거의 충족시키지 못합니다. 현재의 합성 데이터 생성기는 특히 체화된 AI 작업에 있어 유망한 대안을 제공하지만, 낮은 자산 및 렌더링 품질, 제한된 다양성, 비현실적인 물리적 특성으로 인해 컴퓨터 비전 작업에는 부족한 경우가 많습니다. 우리는 새로 개발된 체화된 AI 벤치마크인 BEHAVIOR-1K를 기반으로 컴퓨터 비전 모델의 체계적인 평가를 위해 완전히 맞춤화된 합성 데이터를 생성하는 도구와 자산 세트인 BEHAVIOR Vision Suite(BVS)를 소개합니다. BVS는 장면 수준(예: 조명, 객체 배치), 객체 수준(예: 관절 구성, "채워짐" 및 "접힘"과 같은 속성), 카메라 수준(예: 시야각, 초점 거리)에서 조정 가능한 많은 매개변수를 지원합니다. 연구자들은 데이터 생성 중에 이러한 매개변수를 임의로 변경하여 통제된 실험을 수행할 수 있습니다. 우리는 세 가지 예시 응용 시나리오를 보여줍니다: 도메인 변화의 다양한 연속 축에 걸쳐 모델의 견고성을 체계적으로 평가, 동일한 이미지 세트에서 장면 이해 모델을 평가, 그리고 새로운 비전 작업인 단항 및 이항 상태 예측을 위한 시뮬레이션-대-실제 전이를 훈련하고 평가합니다. 프로젝트 웹사이트: https://behavior-vision-suite.github.io/
English
The systematic evaluation and understanding of computer vision models under varying conditions require large amounts of data with comprehensive and customized labels, which real-world vision datasets rarely satisfy. While current synthetic data generators offer a promising alternative, particularly for embodied AI tasks, they often fall short for computer vision tasks due to low asset and rendering quality, limited diversity, and unrealistic physical properties. We introduce the BEHAVIOR Vision Suite (BVS), a set of tools and assets to generate fully customized synthetic data for systematic evaluation of computer vision models, based on the newly developed embodied AI benchmark, BEHAVIOR-1K. BVS supports a large number of adjustable parameters at the scene level (e.g., lighting, object placement), the object level (e.g., joint configuration, attributes such as "filled" and "folded"), and the camera level (e.g., field of view, focal length). Researchers can arbitrarily vary these parameters during data generation to perform controlled experiments. We showcase three example application scenarios: systematically evaluating the robustness of models across different continuous axes of domain shift, evaluating scene understanding models on the same set of images, and training and evaluating simulation-to-real transfer for a novel vision task: unary and binary state prediction. Project website: https://behavior-vision-suite.github.io/

Summary

AI-Generated Summary

PDF130December 15, 2024