Équipe rouge incarnée pour l'audit des modèles fondamentaux de robots
Embodied Red Teaming for Auditing Robotic Foundation Models
November 27, 2024
Auteurs: Sathwik Karnik, Zhang-Wei Hong, Nishant Abhangi, Yen-Chen Lin, Tsun-Hsuan Wang, Christophe Dupuy, Rahul Gupta, Pulkit Agrawal
cs.AI
Résumé
Les modèles de robot conditionnés par le langage ont le potentiel de permettre aux robots d'effectuer une large gamme de tâches basées sur des instructions en langage naturel. Cependant, évaluer leur sécurité et leur efficacité reste difficile car il est compliqué de tester toutes les différentes manières dont une tâche peut être formulée. Les benchmarks actuels présentent deux limitations majeures : ils s'appuient sur un ensemble limité d'instructions générées par des humains, en laissant de côté de nombreux cas complexes, et se concentrent uniquement sur la performance de la tâche sans évaluer la sécurité, telle que l'évitement de dommages. Pour combler ces lacunes, nous introduisons Embodied Red Teaming (ERT), une nouvelle méthode d'évaluation qui génère des instructions diverses et complexes pour tester ces modèles. ERT utilise des techniques automatisées de red teaming avec des Modèles Vision Langage (VLM) pour créer des instructions difficiles ancrées contextuellement. Les résultats expérimentaux montrent que les modèles de robot conditionnés par le langage de pointe échouent ou se comportent de manière non sécurisée sur les instructions générées par ERT, soulignant les lacunes des benchmarks actuels dans l'évaluation des performances et de la sécurité réelles. Le code et les vidéos sont disponibles sur : https://s-karnik.github.io/embodied-red-team-project-page.
English
Language-conditioned robot models have the potential to enable robots to
perform a wide range of tasks based on natural language instructions. However,
assessing their safety and effectiveness remains challenging because it is
difficult to test all the different ways a single task can be phrased. Current
benchmarks have two key limitations: they rely on a limited set of
human-generated instructions, missing many challenging cases, and focus only on
task performance without assessing safety, such as avoiding damage. To address
these gaps, we introduce Embodied Red Teaming (ERT), a new evaluation method
that generates diverse and challenging instructions to test these models. ERT
uses automated red teaming techniques with Vision Language Models (VLMs) to
create contextually grounded, difficult instructions. Experimental results show
that state-of-the-art language-conditioned robot models fail or behave unsafely
on ERT-generated instructions, underscoring the shortcomings of current
benchmarks in evaluating real-world performance and safety. Code and videos are
available at: https://s-karnik.github.io/embodied-red-team-project-page.Summary
AI-Generated Summary