Grondvesten van Taal in Multi-Perspectief Referentiële Communicatie

Samenvatting

We introduceren een taak en dataset voor het genereren en begrijpen van verwijzende uitdrukkingen in multi-agent embodied omgevingen. In deze taak moeten twee agenten in een gedeelde scène rekening houden met elkaars visuele perspectief, dat kan verschillen van hun eigen perspectief, om zowel verwijzingen naar objecten in een scène als de ruimtelijke relaties tussen hen te produceren en begrijpen. We verzamelen een dataset van 2.970 door mensen geschreven verwijzende uitdrukkingen, elk gekoppeld aan menselijke begripsoordelen, en evalueren de prestaties van geautomatiseerde modellen als sprekers en luisteraars gekoppeld aan menselijke partners, waarbij we constateren dat de prestaties van modellen zowel bij het genereren als begrijpen van verwijzingen achterblijven bij die van paren van menselijke agenten. Ten slotte experimenteren we met het trainen van een open-gewicht sprekermodel met bewijs van communicatief succes wanneer het gekoppeld is aan een luisteraar, resulterend in een verbetering van 58,9 naar 69,3% in communicatief succes en zelfs het overtreffen van het sterkste gepatenteerde model.

English

We introduce a task and dataset for referring expression generation and comprehension in multi-agent embodied environments. In this task, two agents in a shared scene must take into account one another's visual perspective, which may be different from their own, to both produce and understand references to objects in a scene and the spatial relations between them. We collect a dataset of 2,970 human-written referring expressions, each paired with human comprehension judgments, and evaluate the performance of automated models as speakers and listeners paired with human partners, finding that model performance in both reference generation and comprehension lags behind that of pairs of human agents. Finally, we experiment training an open-weight speaker model with evidence of communicative success when paired with a listener, resulting in an improvement from 58.9 to 69.3% in communicative success and even outperforming the strongest proprietary model.

Grondvesten van Taal in Multi-Perspectief Referentiële Communicatie

Grounding Language in Multi-Perspective Referential Communication

Samenvatting

Support