다중 관점 지시적 커뮤니케이션에서 언어 기반화
Grounding Language in Multi-Perspective Referential Communication
October 4, 2024
저자: Zineng Tang, Lingjun Mao, Alane Suhr
cs.AI
초록
우리는 다중 에이전트 신체화 환경에서의 지시어 생성 및 이해를 위한 작업과 데이터셋을 소개합니다. 이 작업에서 공유된 장면에서 두 개의 에이전트는 서로의 시각적 관점을 고려해야 하며, 이는 자신의 것과 다를 수 있습니다. 이를 통해 장면 내 객체 및 그들 사이의 공간적 관계에 대한 참조를 생성하고 이해해야 합니다. 우리는 2,970개의 인간이 작성한 지시어로 이루어진 데이터셋을 수집하였으며, 각각이 인간 이해 판단과 짝을 이루어 있습니다. 우리는 자동화된 모델의 성능을 평가하고, 이들을 사람 파트너와 짝을 이루어 화자 및 청자로 설정하여 모델의 성능이 참조 생성 및 이해 모두에서 인간 에이전트의 성능을 미치지 못한다는 것을 발견했습니다. 마지막으로, 우리는 통신적 성공의 증거로 열린 가중치 화자 모델을 훈련시켜 실험하였고, 청자와 짝을 이룰 때 통신적 성공이 58.9%에서 69.3%로 향상되었으며, 가장 강력한 프로프리어터리 모델을 능가하는 결과를 얻었습니다.
English
We introduce a task and dataset for referring expression generation and
comprehension in multi-agent embodied environments. In this task, two agents in
a shared scene must take into account one another's visual perspective, which
may be different from their own, to both produce and understand references to
objects in a scene and the spatial relations between them. We collect a dataset
of 2,970 human-written referring expressions, each paired with human
comprehension judgments, and evaluate the performance of automated models as
speakers and listeners paired with human partners, finding that model
performance in both reference generation and comprehension lags behind that of
pairs of human agents. Finally, we experiment training an open-weight speaker
model with evidence of communicative success when paired with a listener,
resulting in an improvement from 58.9 to 69.3% in communicative success and
even outperforming the strongest proprietary model.Summary
AI-Generated Summary