Hacia un Razonamiento Social Fundamentado

Resumen

Considere un robot encargado de ordenar un escritorio que contiene un meticulosamente construido coche deportivo de Lego. Un humano podría reconocer que no es socialmente apropiado desarmar el coche deportivo y guardarlo como parte de la "limpieza". ¿Cómo puede un robot llegar a esa conclusión? Aunque los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han utilizado recientemente para habilitar el razonamiento social, fundamentar este razonamiento en el mundo real ha sido un desafío. Para razonar en el mundo real, los robots deben ir más allá de consultar pasivamente los LLMs y *recolectar activamente información del entorno* que sea necesaria para tomar la decisión correcta. Por ejemplo, después de detectar que hay un coche oculto, el robot podría necesitar percibir activamente el coche para saber si se trata de un modelo avanzado hecho de Legos o un coche de juguete construido por un niño pequeño. Proponemos un enfoque que aprovecha un LLM y un modelo de lenguaje visual (VLM, por sus siglas en inglés) para ayudar a un robot a percibir activamente su entorno y realizar un razonamiento social fundamentado. Para evaluar nuestro marco de trabajo a gran escala, publicamos el conjunto de datos MessySurfaces, que contiene imágenes de 70 superficies del mundo real que necesitan ser limpiadas. Además, ilustramos nuestro enfoque con un robot en 2 superficies cuidadosamente diseñadas. Encontramos una mejora promedio del 12.9% en el benchmark de MessySurfaces y una mejora promedio del 15% en los experimentos con el robot en comparación con los baselines que no utilizan percepción activa. El conjunto de datos, el código y los videos de nuestro enfoque se pueden encontrar en https://minaek.github.io/groundedsocialreasoning.

English

Consider a robot tasked with tidying a desk with a meticulously constructed Lego sports car. A human may recognize that it is not socially appropriate to disassemble the sports car and put it away as part of the "tidying". How can a robot reach that conclusion? Although large language models (LLMs) have recently been used to enable social reasoning, grounding this reasoning in the real world has been challenging. To reason in the real world, robots must go beyond passively querying LLMs and *actively gather information from the environment* that is required to make the right decision. For instance, after detecting that there is an occluded car, the robot may need to actively perceive the car to know whether it is an advanced model car made out of Legos or a toy car built by a toddler. We propose an approach that leverages an LLM and vision language model (VLM) to help a robot actively perceive its environment to perform grounded social reasoning. To evaluate our framework at scale, we release the MessySurfaces dataset which contains images of 70 real-world surfaces that need to be cleaned. We additionally illustrate our approach with a robot on 2 carefully designed surfaces. We find an average 12.9% improvement on the MessySurfaces benchmark and an average 15% improvement on the robot experiments over baselines that do not use active perception. The dataset, code, and videos of our approach can be found at https://minaek.github.io/groundedsocialreasoning.

Hacia un Razonamiento Social Fundamentado

Toward Grounded Social Reasoning

Resumen

Support