Fondare il Linguaggio nella Comunicazione Referenziale Multi-Prospettica

Abstract

Introduciamo un compito e un set di dati per la generazione e comprensione dell'espressione di riferimento in ambienti incorporati multiagente. In questo compito, due agenti in una scena condivisa devono tener conto della prospettiva visiva reciproca, che può essere diversa dalla propria, per produrre e comprendere riferimenti agli oggetti in una scena e alle relazioni spaziali tra di essi. Raccogliamo un set di dati di 2.970 espressioni di riferimento scritte da umani, ciascuna accoppiata con giudizi di comprensione umani, e valutiamo le prestazioni dei modelli automatizzati come speaker e ascoltatori accoppiati con partner umani, riscontrando che le prestazioni del modello nella generazione e comprensione dei riferimenti sono inferiori a quelle delle coppie di agenti umani. Infine, sperimentiamo addestrando un modello di speaker open-weight con prove di successo comunicativo quando accoppiato con un ascoltatore, ottenendo un miglioramento dal 58,9 al 69,3% nel successo comunicativo e superando persino il modello proprietario più potente.

English

We introduce a task and dataset for referring expression generation and comprehension in multi-agent embodied environments. In this task, two agents in a shared scene must take into account one another's visual perspective, which may be different from their own, to both produce and understand references to objects in a scene and the spatial relations between them. We collect a dataset of 2,970 human-written referring expressions, each paired with human comprehension judgments, and evaluate the performance of automated models as speakers and listeners paired with human partners, finding that model performance in both reference generation and comprehension lags behind that of pairs of human agents. Finally, we experiment training an open-weight speaker model with evidence of communicative success when paired with a listener, resulting in an improvement from 58.9 to 69.3% in communicative success and even outperforming the strongest proprietary model.

Fondare il Linguaggio nella Comunicazione Referenziale Multi-Prospettica

Grounding Language in Multi-Perspective Referential Communication

Abstract

Support