Em Direção ao Raciocínio Social Fundamentado

Resumo

Considere um robô encarregado de organizar uma mesa com um carro esportivo de Lego meticulosamente construído. Um humano pode reconhecer que não é socialmente apropriado desmontar o carro esportivo e guardá-lo como parte da "organização". Como um robô pode chegar a essa conclusão? Embora os modelos de linguagem de grande escala (LLMs) tenham sido recentemente usados para habilitar o raciocínio social, fundamentar esse raciocínio no mundo real tem sido desafiador. Para raciocinar no mundo real, os robôs devem ir além de consultar passivamente os LLMs e *coletar ativamente informações do ambiente* que são necessárias para tomar a decisão correta. Por exemplo, após detectar que há um carro ocluído, o robô pode precisar perceber ativamente o carro para saber se é um carro modelo avançado feito de Legos ou um carrinho de brinquedo construído por uma criança. Propomos uma abordagem que aproveita um LLM e um modelo de linguagem visual (VLM) para ajudar um robô a perceber ativamente seu ambiente e realizar raciocínio social fundamentado. Para avaliar nossa estrutura em escala, lançamos o conjunto de dados MessySurfaces, que contém imagens de 70 superfícies do mundo real que precisam ser limpas. Além disso, ilustramos nossa abordagem com um robô em 2 superfícies cuidadosamente projetadas. Encontramos uma melhoria média de 12,9% no benchmark MessySurfaces e uma melhoria média de 15% nos experimentos com robôs em relação às linhas de base que não usam percepção ativa. O conjunto de dados, o código e os vídeos de nossa abordagem podem ser encontrados em https://minaek.github.io/groundedsocialreasoning.

English

Consider a robot tasked with tidying a desk with a meticulously constructed Lego sports car. A human may recognize that it is not socially appropriate to disassemble the sports car and put it away as part of the "tidying". How can a robot reach that conclusion? Although large language models (LLMs) have recently been used to enable social reasoning, grounding this reasoning in the real world has been challenging. To reason in the real world, robots must go beyond passively querying LLMs and *actively gather information from the environment* that is required to make the right decision. For instance, after detecting that there is an occluded car, the robot may need to actively perceive the car to know whether it is an advanced model car made out of Legos or a toy car built by a toddler. We propose an approach that leverages an LLM and vision language model (VLM) to help a robot actively perceive its environment to perform grounded social reasoning. To evaluate our framework at scale, we release the MessySurfaces dataset which contains images of 70 real-world surfaces that need to be cleaned. We additionally illustrate our approach with a robot on 2 carefully designed surfaces. We find an average 12.9% improvement on the MessySurfaces benchmark and an average 15% improvement on the robot experiments over baselines that do not use active perception. The dataset, code, and videos of our approach can be found at https://minaek.github.io/groundedsocialreasoning.

Em Direção ao Raciocínio Social Fundamentado

Toward Grounded Social Reasoning

Resumo

Support