ChatPaper.aiChatPaper

Hin zu fundiertem sozialem Denken

Toward Grounded Social Reasoning

June 14, 2023
Autoren: Minae Kwon, Hengyuan Hu, Vivek Myers, Siddharth Karamcheti, Anca Dragan, Dorsa Sadigh
cs.AI

Zusammenfassung

Betrachten wir einen Roboter, der damit beauftragt ist, einen Schreibtisch aufzuräumen, auf dem ein sorgfältig konstruiertes Lego-Sportauto steht. Ein Mensch würde möglicherweise erkennen, dass es sozial nicht angemessen ist, das Sportauto auseinanderzunehmen und wegzuräumen, um den Schreibtisch zu „säubern“. Wie kann ein Roboter zu dieser Schlussfolgerung gelangen? Obwohl große Sprachmodelle (LLMs) in letzter Zeit zur Ermöglichung sozialer Schlussfolgerungen eingesetzt wurden, war es eine Herausforderung, diese Schlussfolgerungen in der realen Welt zu verankern. Um in der realen Welt zu schlussfolgern, müssen Roboter über das passive Abfragen von LLMs hinausgehen und *aktiv Informationen aus der Umgebung sammeln*, die erforderlich sind, um die richtige Entscheidung zu treffen. Beispielsweise könnte der Roboter, nachdem er ein verdecktes Auto erkannt hat, aktiv das Auto wahrnehmen müssen, um festzustellen, ob es sich um ein hochwertiges Modellauto aus Legos oder um ein Spielzeugauto handelt, das von einem Kleinkind gebaut wurde. Wir schlagen einen Ansatz vor, der ein LLM und ein visuelles Sprachmodell (VLM) nutzt, um einem Roboter zu helfen, seine Umgebung aktiv wahrzunehmen und fundierte soziale Schlussfolgerungen zu ziehen. Um unser Framework in großem Maßstab zu evaluieren, veröffentlichen wir den MessySurfaces-Datensatz, der Bilder von 70 realen Oberflächen enthält, die gereinigt werden müssen. Zusätzlich demonstrieren wir unseren Ansatz mit einem Roboter auf zwei sorgfältig gestalteten Oberflächen. Wir verzeichnen eine durchschnittliche Verbesserung von 12,9 % auf dem MessySurfaces-Benchmark und eine durchschnittliche Verbesserung von 15 % in den Roboter-Experimenten gegenüber Baseline-Methoden, die keine aktive Wahrnehmung verwenden. Der Datensatz, der Code und Videos unseres Ansatzes sind unter https://minaek.github.io/groundedsocialreasoning verfügbar.
English
Consider a robot tasked with tidying a desk with a meticulously constructed Lego sports car. A human may recognize that it is not socially appropriate to disassemble the sports car and put it away as part of the "tidying". How can a robot reach that conclusion? Although large language models (LLMs) have recently been used to enable social reasoning, grounding this reasoning in the real world has been challenging. To reason in the real world, robots must go beyond passively querying LLMs and *actively gather information from the environment* that is required to make the right decision. For instance, after detecting that there is an occluded car, the robot may need to actively perceive the car to know whether it is an advanced model car made out of Legos or a toy car built by a toddler. We propose an approach that leverages an LLM and vision language model (VLM) to help a robot actively perceive its environment to perform grounded social reasoning. To evaluate our framework at scale, we release the MessySurfaces dataset which contains images of 70 real-world surfaces that need to be cleaned. We additionally illustrate our approach with a robot on 2 carefully designed surfaces. We find an average 12.9% improvement on the MessySurfaces benchmark and an average 15% improvement on the robot experiments over baselines that do not use active perception. The dataset, code, and videos of our approach can be found at https://minaek.github.io/groundedsocialreasoning.
PDF30December 15, 2024