Fondare il Linguaggio nella Comunicazione Referenziale Multi-Prospettica
Grounding Language in Multi-Perspective Referential Communication
October 4, 2024
Autori: Zineng Tang, Lingjun Mao, Alane Suhr
cs.AI
Abstract
Introduciamo un compito e un set di dati per la generazione e comprensione dell'espressione di riferimento in ambienti incorporati multiagente. In questo compito, due agenti in una scena condivisa devono tener conto della prospettiva visiva reciproca, che può essere diversa dalla propria, per produrre e comprendere riferimenti agli oggetti in una scena e alle relazioni spaziali tra di essi. Raccogliamo un set di dati di 2.970 espressioni di riferimento scritte da umani, ciascuna accoppiata con giudizi di comprensione umani, e valutiamo le prestazioni dei modelli automatizzati come speaker e ascoltatori accoppiati con partner umani, riscontrando che le prestazioni del modello nella generazione e comprensione dei riferimenti sono inferiori a quelle delle coppie di agenti umani. Infine, sperimentiamo addestrando un modello di speaker open-weight con prove di successo comunicativo quando accoppiato con un ascoltatore, ottenendo un miglioramento dal 58,9 al 69,3% nel successo comunicativo e superando persino il modello proprietario più potente.
English
We introduce a task and dataset for referring expression generation and
comprehension in multi-agent embodied environments. In this task, two agents in
a shared scene must take into account one another's visual perspective, which
may be different from their own, to both produce and understand references to
objects in a scene and the spatial relations between them. We collect a dataset
of 2,970 human-written referring expressions, each paired with human
comprehension judgments, and evaluate the performance of automated models as
speakers and listeners paired with human partners, finding that model
performance in both reference generation and comprehension lags behind that of
pairs of human agents. Finally, we experiment training an open-weight speaker
model with evidence of communicative success when paired with a listener,
resulting in an improvement from 58.9 to 69.3% in communicative success and
even outperforming the strongest proprietary model.