Naar Gegronde Sociale Redenering

Samenvatting

Stel je een robot voor die de taak heeft een bureau op te ruimen waarop een zorgvuldig gebouwde Lego-sportauto staat. Een mens zou kunnen herkennen dat het niet sociaal gepast is om de sportauto uit elkaar te halen en op te bergen als onderdeel van het "opruimen". Hoe kan een robot tot die conclusie komen? Hoewel grote taalmodellen (LLMs) recentelijk zijn gebruikt om sociaal redeneren mogelijk te maken, is het een uitdaging gebleken om dit redeneren in de echte wereld te verankeren. Om in de echte wereld te kunnen redeneren, moeten robots verder gaan dan het passief bevragen van LLMs en *actief informatie uit de omgeving verzamelen* die nodig is om de juiste beslissing te nemen. Zo kan de robot, nadat hij heeft gedetecteerd dat er een verborgen auto aanwezig is, deze actief waarnemen om te bepalen of het een geavanceerd modelauto van Lego is of een speelgoedauto die door een peuter is gebouwd. Wij stellen een aanpak voor die gebruikmaakt van een LLM en een vision language model (VLM) om een robot te helpen zijn omgeving actief waar te nemen en zo verankerd sociaal redeneren uit te voeren. Om ons framework op grote schaal te evalueren, hebben we de MessySurfaces-dataset vrijgegeven, die afbeeldingen bevat van 70 oppervlakken uit de echte wereld die moeten worden opgeruimd. Daarnaast demonstreren we onze aanpak met een robot op 2 zorgvuldig ontworpen oppervlakken. We constateren een gemiddelde verbetering van 12,9% op de MessySurfaces-benchmark en een gemiddelde verbetering van 15% bij de robotexperimenten ten opzichte van baseline-methoden die geen actieve waarneming gebruiken. De dataset, code en video's van onze aanpak zijn te vinden op https://minaek.github.io/groundedsocialreasoning.

English

Consider a robot tasked with tidying a desk with a meticulously constructed Lego sports car. A human may recognize that it is not socially appropriate to disassemble the sports car and put it away as part of the "tidying". How can a robot reach that conclusion? Although large language models (LLMs) have recently been used to enable social reasoning, grounding this reasoning in the real world has been challenging. To reason in the real world, robots must go beyond passively querying LLMs and *actively gather information from the environment* that is required to make the right decision. For instance, after detecting that there is an occluded car, the robot may need to actively perceive the car to know whether it is an advanced model car made out of Legos or a toy car built by a toddler. We propose an approach that leverages an LLM and vision language model (VLM) to help a robot actively perceive its environment to perform grounded social reasoning. To evaluate our framework at scale, we release the MessySurfaces dataset which contains images of 70 real-world surfaces that need to be cleaned. We additionally illustrate our approach with a robot on 2 carefully designed surfaces. We find an average 12.9% improvement on the MessySurfaces benchmark and an average 15% improvement on the robot experiments over baselines that do not use active perception. The dataset, code, and videos of our approach can be found at https://minaek.github.io/groundedsocialreasoning.

Naar Gegronde Sociale Redenering

Toward Grounded Social Reasoning

Samenvatting

Support