Fundamentação da Linguagem na Comunicação Referencial Multi-Perspectiva
Grounding Language in Multi-Perspective Referential Communication
October 4, 2024
Autores: Zineng Tang, Lingjun Mao, Alane Suhr
cs.AI
Resumo
Apresentamos uma tarefa e conjunto de dados para geração e compreensão de expressões de referência em ambientes corporificados multiagentes. Nesta tarefa, dois agentes em uma cena compartilhada devem levar em consideração a perspectiva visual um do outro, que pode ser diferente da sua própria, para tanto produzir quanto compreender referências a objetos em uma cena e as relações espaciais entre eles. Coletamos um conjunto de dados de 2.970 expressões de referência escritas por humanos, cada uma associada a julgamentos de compreensão humanos, e avaliamos o desempenho de modelos automatizados como emissores e receptores emparelhados com parceiros humanos, constatando que o desempenho do modelo tanto na geração de referências quanto na compreensão fica aquém do de pares de agentes humanos. Por fim, experimentamos treinar um modelo de emissor de peso aberto com evidências de sucesso comunicativo quando emparelhado com um ouvinte, resultando em uma melhoria de 58,9 para 69,3% em sucesso comunicativo e até mesmo superando o modelo proprietário mais forte.
English
We introduce a task and dataset for referring expression generation and
comprehension in multi-agent embodied environments. In this task, two agents in
a shared scene must take into account one another's visual perspective, which
may be different from their own, to both produce and understand references to
objects in a scene and the spatial relations between them. We collect a dataset
of 2,970 human-written referring expressions, each paired with human
comprehension judgments, and evaluate the performance of automated models as
speakers and listeners paired with human partners, finding that model
performance in both reference generation and comprehension lags behind that of
pairs of human agents. Finally, we experiment training an open-weight speaker
model with evidence of communicative success when paired with a listener,
resulting in an improvement from 58.9 to 69.3% in communicative success and
even outperforming the strongest proprietary model.Summary
AI-Generated Summary