ChatPaper.aiChatPaper

Verankerung von Sprache in multiperspektivischer referentieller Kommunikation

Grounding Language in Multi-Perspective Referential Communication

October 4, 2024
Autoren: Zineng Tang, Lingjun Mao, Alane Suhr
cs.AI

Zusammenfassung

Wir stellen eine Aufgabe und ein Datenset für die Generierung und das Verständnis von Bezugsausdrücken in multi-agenten verkörperten Umgebungen vor. In dieser Aufgabe müssen zwei Agenten in einer gemeinsamen Szene die visuelle Perspektive des anderen berücksichtigen, die von ihrer eigenen abweichen kann, um sowohl Verweise auf Objekte in einer Szene als auch die räumlichen Beziehungen zwischen ihnen zu erzeugen und zu verstehen. Wir sammeln ein Datenset von 2.970 menschlich verfassten Bezugsausdrücken, die jeweils mit menschlichen Verständnisbeurteilungen gepaart sind, und bewerten die Leistung automatisierter Modelle als Sprecher und Zuhörer, gepaart mit menschlichen Partnern. Wir stellen fest, dass die Leistung der Modelle sowohl bei der Referenzerzeugung als auch beim Verständnis hinter der von Paaren menschlicher Agenten zurückbleibt. Schließlich experimentieren wir mit dem Training eines offengewichtigen Sprechermodells, das bei erfolgreicher Kommunikation mit einem Zuhörer verbessert wird, was zu einer Steigerung des kommunikativen Erfolgs von 58,9 auf 69,3 % führt und sogar das stärkste proprietäre Modell übertrifft.
English
We introduce a task and dataset for referring expression generation and comprehension in multi-agent embodied environments. In this task, two agents in a shared scene must take into account one another's visual perspective, which may be different from their own, to both produce and understand references to objects in a scene and the spatial relations between them. We collect a dataset of 2,970 human-written referring expressions, each paired with human comprehension judgments, and evaluate the performance of automated models as speakers and listeners paired with human partners, finding that model performance in both reference generation and comprehension lags behind that of pairs of human agents. Finally, we experiment training an open-weight speaker model with evidence of communicative success when paired with a listener, resulting in an improvement from 58.9 to 69.3% in communicative success and even outperforming the strongest proprietary model.

Summary

AI-Generated Summary

PDF42November 16, 2024