ChatPaper.aiChatPaper

Vers un raisonnement social ancré

Toward Grounded Social Reasoning

June 14, 2023
Auteurs: Minae Kwon, Hengyuan Hu, Vivek Myers, Siddharth Karamcheti, Anca Dragan, Dorsa Sadigh
cs.AI

Résumé

Imaginez un robot chargé de ranger un bureau sur lequel se trouve une voiture de sport Lego minutieusement construite. Un humain pourrait reconnaître qu'il n'est pas socialement approprié de démonter la voiture de sport et de la ranger dans le cadre du "rangement". Comment un robot peut-il parvenir à cette conclusion ? Bien que les grands modèles de langage (LLM) aient récemment été utilisés pour permettre un raisonnement social, ancrer ce raisonnement dans le monde réel s'est avéré difficile. Pour raisonner dans le monde réel, les robots doivent aller au-delà de l'interrogation passive des LLM et *recueillir activement des informations de l'environnement* nécessaires pour prendre la bonne décision. Par exemple, après avoir détecté qu'il y a une voiture partiellement cachée, le robot pourrait avoir besoin de percevoir activement la voiture pour savoir s'il s'agit d'une voiture modèle avancée en Lego ou d'une voiture jouet construite par un enfant. Nous proposons une approche qui exploite un LLM et un modèle de vision et langage (VLM) pour aider un robot à percevoir activement son environnement afin de réaliser un raisonnement social ancré. Pour évaluer notre cadre à grande échelle, nous publions le jeu de données MessySurfaces qui contient des images de 70 surfaces réelles nécessitant un nettoyage. Nous illustrons également notre approche avec un robot sur 2 surfaces soigneusement conçues. Nous observons une amélioration moyenne de 12,9 % sur le benchmark MessySurfaces et une amélioration moyenne de 15 % sur les expériences robotiques par rapport aux bases de référence qui n'utilisent pas la perception active. Le jeu de données, le code et les vidéos de notre approche sont disponibles à l'adresse https://minaek.github.io/groundedsocialreasoning.
English
Consider a robot tasked with tidying a desk with a meticulously constructed Lego sports car. A human may recognize that it is not socially appropriate to disassemble the sports car and put it away as part of the "tidying". How can a robot reach that conclusion? Although large language models (LLMs) have recently been used to enable social reasoning, grounding this reasoning in the real world has been challenging. To reason in the real world, robots must go beyond passively querying LLMs and *actively gather information from the environment* that is required to make the right decision. For instance, after detecting that there is an occluded car, the robot may need to actively perceive the car to know whether it is an advanced model car made out of Legos or a toy car built by a toddler. We propose an approach that leverages an LLM and vision language model (VLM) to help a robot actively perceive its environment to perform grounded social reasoning. To evaluate our framework at scale, we release the MessySurfaces dataset which contains images of 70 real-world surfaces that need to be cleaned. We additionally illustrate our approach with a robot on 2 carefully designed surfaces. We find an average 12.9% improvement on the MessySurfaces benchmark and an average 15% improvement on the robot experiments over baselines that do not use active perception. The dataset, code, and videos of our approach can be found at https://minaek.github.io/groundedsocialreasoning.
PDF30December 15, 2024