Grondvesten van Taal in Multi-Perspectief Referentiële Communicatie
Grounding Language in Multi-Perspective Referential Communication
October 4, 2024
Auteurs: Zineng Tang, Lingjun Mao, Alane Suhr
cs.AI
Samenvatting
We introduceren een taak en dataset voor het genereren en begrijpen van verwijzende uitdrukkingen in multi-agent embodied omgevingen. In deze taak moeten twee agenten in een gedeelde scène rekening houden met elkaars visuele perspectief, dat kan verschillen van hun eigen perspectief, om zowel verwijzingen naar objecten in een scène als de ruimtelijke relaties tussen hen te produceren en begrijpen. We verzamelen een dataset van 2.970 door mensen geschreven verwijzende uitdrukkingen, elk gekoppeld aan menselijke begripsoordelen, en evalueren de prestaties van geautomatiseerde modellen als sprekers en luisteraars gekoppeld aan menselijke partners, waarbij we constateren dat de prestaties van modellen zowel bij het genereren als begrijpen van verwijzingen achterblijven bij die van paren van menselijke agenten. Ten slotte experimenteren we met het trainen van een open-gewicht sprekermodel met bewijs van communicatief succes wanneer het gekoppeld is aan een luisteraar, resulterend in een verbetering van 58,9 naar 69,3% in communicatief succes en zelfs het overtreffen van het sterkste gepatenteerde model.
English
We introduce a task and dataset for referring expression generation and
comprehension in multi-agent embodied environments. In this task, two agents in
a shared scene must take into account one another's visual perspective, which
may be different from their own, to both produce and understand references to
objects in a scene and the spatial relations between them. We collect a dataset
of 2,970 human-written referring expressions, each paired with human
comprehension judgments, and evaluate the performance of automated models as
speakers and listeners paired with human partners, finding that model
performance in both reference generation and comprehension lags behind that of
pairs of human agents. Finally, we experiment training an open-weight speaker
model with evidence of communicative success when paired with a listener,
resulting in an improvement from 58.9 to 69.3% in communicative success and
even outperforming the strongest proprietary model.Summary
AI-Generated Summary