Équipe rouge incarnée pour l'audit des modèles fondamentaux de robots

papers.abstract

Les modèles de robot conditionnés par le langage ont le potentiel de permettre aux robots d'effectuer une large gamme de tâches basées sur des instructions en langage naturel. Cependant, évaluer leur sécurité et leur efficacité reste difficile car il est compliqué de tester toutes les différentes manières dont une tâche peut être formulée. Les benchmarks actuels présentent deux limitations majeures : ils s'appuient sur un ensemble limité d'instructions générées par des humains, en laissant de côté de nombreux cas complexes, et se concentrent uniquement sur la performance de la tâche sans évaluer la sécurité, telle que l'évitement de dommages. Pour combler ces lacunes, nous introduisons Embodied Red Teaming (ERT), une nouvelle méthode d'évaluation qui génère des instructions diverses et complexes pour tester ces modèles. ERT utilise des techniques automatisées de red teaming avec des Modèles Vision Langage (VLM) pour créer des instructions difficiles ancrées contextuellement. Les résultats expérimentaux montrent que les modèles de robot conditionnés par le langage de pointe échouent ou se comportent de manière non sécurisée sur les instructions générées par ERT, soulignant les lacunes des benchmarks actuels dans l'évaluation des performances et de la sécurité réelles. Le code et les vidéos sont disponibles sur : https://s-karnik.github.io/embodied-red-team-project-page.

English

Language-conditioned robot models have the potential to enable robots to perform a wide range of tasks based on natural language instructions. However, assessing their safety and effectiveness remains challenging because it is difficult to test all the different ways a single task can be phrased. Current benchmarks have two key limitations: they rely on a limited set of human-generated instructions, missing many challenging cases, and focus only on task performance without assessing safety, such as avoiding damage. To address these gaps, we introduce Embodied Red Teaming (ERT), a new evaluation method that generates diverse and challenging instructions to test these models. ERT uses automated red teaming techniques with Vision Language Models (VLMs) to create contextually grounded, difficult instructions. Experimental results show that state-of-the-art language-conditioned robot models fail or behave unsafely on ERT-generated instructions, underscoring the shortcomings of current benchmarks in evaluating real-world performance and safety. Code and videos are available at: https://s-karnik.github.io/embodied-red-team-project-page.

Équipe rouge incarnée pour l'audit des modèles fondamentaux de robots

Embodied Red Teaming for Auditing Robotic Foundation Models

papers.abstract

Support