BEHAVIOR Vision Suite: シミュレーションによるカスタマイズ可能なデータセット生成
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation
May 15, 2024
著者: Yunhao Ge, Yihe Tang, Jiashu Xu, Cem Gokmen, Chengshu Li, Wensi Ai, Benjamin Jose Martinez, Arman Aydin, Mona Anvari, Ayush K Chakravarthy, Hong-Xing Yu, Josiah Wong, Sanjana Srivastava, Sharon Lee, Shengxin Zha, Laurent Itti, Yunzhu Li, Roberto Martín-Martín, Miao Liu, Pengchuan Zhang, Ruohan Zhang, Li Fei-Fei, Jiajun Wu
cs.AI
要旨
コンピュータビジョンモデルを様々な条件下で体系的に評価し理解するためには、包括的かつカスタマイズされたラベルを備えた大量のデータが必要ですが、現実世界のビジョンデータセットはこれを満たすことがほとんどありません。現在の合成データ生成ツールは、特にエンボディドAIタスクにおいて有望な代替手段を提供しますが、アセットやレンダリングの品質が低い、多様性が限られている、物理的特性が非現実的であるといった理由から、コンピュータビジョンタスクには不十分な場合が多いです。本論文では、新たに開発されたエンボディドAIベンチマーク「BEHAVIOR-1K」に基づいて、コンピュータビジョンモデルの体系的評価のための完全にカスタマイズされた合成データを生成するツールとアセットのセットである「BEHAVIOR Vision Suite(BVS)」を紹介します。BVSは、シーンレベル(例:照明、オブジェクトの配置)、オブジェクトレベル(例:関節の設定、「満たされた」「折り畳まれた」などの属性)、カメラレベル(例:視野角、焦点距離)において、多数の調整可能なパラメータをサポートしています。研究者はデータ生成中にこれらのパラメータを任意に変化させ、制御された実験を行うことができます。本論文では、ドメインシフトの異なる連続軸にわたるモデルのロバスト性を体系的に評価する、同じ画像セットでシーン理解モデルを評価する、新しいビジョンタスクである単項および二項状態予測のシミュレーションから実世界への転移を学習および評価する、という3つの応用シナリオを紹介します。プロジェクトウェブサイト:https://behavior-vision-suite.github.io/
English
The systematic evaluation and understanding of computer vision models under
varying conditions require large amounts of data with comprehensive and
customized labels, which real-world vision datasets rarely satisfy. While
current synthetic data generators offer a promising alternative, particularly
for embodied AI tasks, they often fall short for computer vision tasks due to
low asset and rendering quality, limited diversity, and unrealistic physical
properties. We introduce the BEHAVIOR Vision Suite (BVS), a set of tools and
assets to generate fully customized synthetic data for systematic evaluation of
computer vision models, based on the newly developed embodied AI benchmark,
BEHAVIOR-1K. BVS supports a large number of adjustable parameters at the scene
level (e.g., lighting, object placement), the object level (e.g., joint
configuration, attributes such as "filled" and "folded"), and the camera level
(e.g., field of view, focal length). Researchers can arbitrarily vary these
parameters during data generation to perform controlled experiments. We
showcase three example application scenarios: systematically evaluating the
robustness of models across different continuous axes of domain shift,
evaluating scene understanding models on the same set of images, and training
and evaluating simulation-to-real transfer for a novel vision task: unary and
binary state prediction. Project website:
https://behavior-vision-suite.github.io/Summary
AI-Generated Summary