Ancrer le langage dans la communication référentielle multi-perspective
Grounding Language in Multi-Perspective Referential Communication
October 4, 2024
Auteurs: Zineng Tang, Lingjun Mao, Alane Suhr
cs.AI
Résumé
Nous introduisons une tâche et un ensemble de données pour la génération et la compréhension d'expressions référentielles dans des environnements incarnés multi-agents. Dans cette tâche, deux agents dans une scène partagée doivent tenir compte de la perspective visuelle de l'autre, qui peut être différente de la leur, pour à la fois produire et comprendre des références aux objets dans une scène et aux relations spatiales entre eux. Nous collectons un ensemble de données de 2 970 expressions référentielles rédigées par des humains, chacune associée à des jugements de compréhension humaine, et évaluons les performances des modèles automatisés en tant que locuteurs et auditeurs associés à des partenaires humains, constatant que les performances des modèles, tant dans la génération de références que dans la compréhension, sont inférieures à celles de paires d'agents humains. Enfin, nous expérimentons l'entraînement d'un modèle de locuteur à poids ouvert avec des preuves de succès communicatif lorsqu'il est associé à un auditeur, ce qui se traduit par une amélioration de 58,9 à 69,3 % en succès communicatif, surpassant même le modèle propriétaire le plus performant.
English
We introduce a task and dataset for referring expression generation and
comprehension in multi-agent embodied environments. In this task, two agents in
a shared scene must take into account one another's visual perspective, which
may be different from their own, to both produce and understand references to
objects in a scene and the spatial relations between them. We collect a dataset
of 2,970 human-written referring expressions, each paired with human
comprehension judgments, and evaluate the performance of automated models as
speakers and listeners paired with human partners, finding that model
performance in both reference generation and comprehension lags behind that of
pairs of human agents. Finally, we experiment training an open-weight speaker
model with evidence of communicative success when paired with a listener,
resulting in an improvement from 58.9 to 69.3% in communicative success and
even outperforming the strongest proprietary model.Summary
AI-Generated Summary