Fundamentação da Linguagem na Comunicação Referencial Multi-Perspectiva

Resumo

Apresentamos uma tarefa e conjunto de dados para geração e compreensão de expressões de referência em ambientes corporificados multiagentes. Nesta tarefa, dois agentes em uma cena compartilhada devem levar em consideração a perspectiva visual um do outro, que pode ser diferente da sua própria, para tanto produzir quanto compreender referências a objetos em uma cena e as relações espaciais entre eles. Coletamos um conjunto de dados de 2.970 expressões de referência escritas por humanos, cada uma associada a julgamentos de compreensão humanos, e avaliamos o desempenho de modelos automatizados como emissores e receptores emparelhados com parceiros humanos, constatando que o desempenho do modelo tanto na geração de referências quanto na compreensão fica aquém do de pares de agentes humanos. Por fim, experimentamos treinar um modelo de emissor de peso aberto com evidências de sucesso comunicativo quando emparelhado com um ouvinte, resultando em uma melhoria de 58,9 para 69,3% em sucesso comunicativo e até mesmo superando o modelo proprietário mais forte.

English

We introduce a task and dataset for referring expression generation and comprehension in multi-agent embodied environments. In this task, two agents in a shared scene must take into account one another's visual perspective, which may be different from their own, to both produce and understand references to objects in a scene and the spatial relations between them. We collect a dataset of 2,970 human-written referring expressions, each paired with human comprehension judgments, and evaluate the performance of automated models as speakers and listeners paired with human partners, finding that model performance in both reference generation and comprehension lags behind that of pairs of human agents. Finally, we experiment training an open-weight speaker model with evidence of communicative success when paired with a listener, resulting in an improvement from 58.9 to 69.3% in communicative success and even outperforming the strongest proprietary model.

Fundamentação da Linguagem na Comunicação Referencial Multi-Perspectiva

Grounding Language in Multi-Perspective Referential Communication

Resumo

Support