Naar Gegronde Sociale Redenering
Toward Grounded Social Reasoning
June 14, 2023
Auteurs: Minae Kwon, Hengyuan Hu, Vivek Myers, Siddharth Karamcheti, Anca Dragan, Dorsa Sadigh
cs.AI
Samenvatting
Stel je een robot voor die de taak heeft een bureau op te ruimen waarop een zorgvuldig gebouwde Lego-sportauto staat. Een mens zou kunnen herkennen dat het niet sociaal gepast is om de sportauto uit elkaar te halen en op te bergen als onderdeel van het "opruimen". Hoe kan een robot tot die conclusie komen? Hoewel grote taalmodellen (LLMs) recentelijk zijn gebruikt om sociaal redeneren mogelijk te maken, is het een uitdaging gebleken om dit redeneren in de echte wereld te verankeren. Om in de echte wereld te kunnen redeneren, moeten robots verder gaan dan het passief bevragen van LLMs en *actief informatie uit de omgeving verzamelen* die nodig is om de juiste beslissing te nemen. Zo kan de robot, nadat hij heeft gedetecteerd dat er een verborgen auto aanwezig is, deze actief waarnemen om te bepalen of het een geavanceerd modelauto van Lego is of een speelgoedauto die door een peuter is gebouwd. Wij stellen een aanpak voor die gebruikmaakt van een LLM en een vision language model (VLM) om een robot te helpen zijn omgeving actief waar te nemen en zo verankerd sociaal redeneren uit te voeren. Om ons framework op grote schaal te evalueren, hebben we de MessySurfaces-dataset vrijgegeven, die afbeeldingen bevat van 70 oppervlakken uit de echte wereld die moeten worden opgeruimd. Daarnaast demonstreren we onze aanpak met een robot op 2 zorgvuldig ontworpen oppervlakken. We constateren een gemiddelde verbetering van 12,9% op de MessySurfaces-benchmark en een gemiddelde verbetering van 15% bij de robotexperimenten ten opzichte van baseline-methoden die geen actieve waarneming gebruiken. De dataset, code en video's van onze aanpak zijn te vinden op https://minaek.github.io/groundedsocialreasoning.
English
Consider a robot tasked with tidying a desk with a meticulously constructed
Lego sports car. A human may recognize that it is not socially appropriate to
disassemble the sports car and put it away as part of the "tidying". How can a
robot reach that conclusion? Although large language models (LLMs) have
recently been used to enable social reasoning, grounding this reasoning in the
real world has been challenging. To reason in the real world, robots must go
beyond passively querying LLMs and *actively gather information from the
environment* that is required to make the right decision. For instance, after
detecting that there is an occluded car, the robot may need to actively
perceive the car to know whether it is an advanced model car made out of Legos
or a toy car built by a toddler. We propose an approach that leverages an LLM
and vision language model (VLM) to help a robot actively perceive its
environment to perform grounded social reasoning. To evaluate our framework at
scale, we release the MessySurfaces dataset which contains images of 70
real-world surfaces that need to be cleaned. We additionally illustrate our
approach with a robot on 2 carefully designed surfaces. We find an average
12.9% improvement on the MessySurfaces benchmark and an average 15% improvement
on the robot experiments over baselines that do not use active perception. The
dataset, code, and videos of our approach can be found at
https://minaek.github.io/groundedsocialreasoning.