Ancrer le langage dans la communication référentielle multi-perspective

papers.abstract

Nous introduisons une tâche et un ensemble de données pour la génération et la compréhension d'expressions référentielles dans des environnements incarnés multi-agents. Dans cette tâche, deux agents dans une scène partagée doivent tenir compte de la perspective visuelle de l'autre, qui peut être différente de la leur, pour à la fois produire et comprendre des références aux objets dans une scène et aux relations spatiales entre eux. Nous collectons un ensemble de données de 2 970 expressions référentielles rédigées par des humains, chacune associée à des jugements de compréhension humaine, et évaluons les performances des modèles automatisés en tant que locuteurs et auditeurs associés à des partenaires humains, constatant que les performances des modèles, tant dans la génération de références que dans la compréhension, sont inférieures à celles de paires d'agents humains. Enfin, nous expérimentons l'entraînement d'un modèle de locuteur à poids ouvert avec des preuves de succès communicatif lorsqu'il est associé à un auditeur, ce qui se traduit par une amélioration de 58,9 à 69,3 % en succès communicatif, surpassant même le modèle propriétaire le plus performant.

English

We introduce a task and dataset for referring expression generation and comprehension in multi-agent embodied environments. In this task, two agents in a shared scene must take into account one another's visual perspective, which may be different from their own, to both produce and understand references to objects in a scene and the spatial relations between them. We collect a dataset of 2,970 human-written referring expressions, each paired with human comprehension judgments, and evaluate the performance of automated models as speakers and listeners paired with human partners, finding that model performance in both reference generation and comprehension lags behind that of pairs of human agents. Finally, we experiment training an open-weight speaker model with evidence of communicative success when paired with a listener, resulting in an improvement from 58.9 to 69.3% in communicative success and even outperforming the strongest proprietary model.

Ancrer le langage dans la communication référentielle multi-perspective

Grounding Language in Multi-Perspective Referential Communication

papers.abstract

Support