Stark: 개인화된 상식 지식을 활용한 장기적 다중 모달 소셜 대화
Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge
July 4, 2024
저자: Young-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Byungsoo Ko, Jonghwan Hyeon, Ho-Jin Choi
cs.AI
초록
사람들은 인스턴트 메시징 도구를 통해 대화 중에 자신의 개인적 경험과 관련된 다양한 이미지를 공유합니다. 그러나 기존 연구들은 (1) 단일 세션에서의 이미지 공유 행동에 초점을 맞추어 장기적인 사회적 상호작용이 제한적이며, (2) 개인화된 이미지 공유 행동이 부족하다는 문제점을 가지고 있습니다. 본 연구에서는 다양한 사회적 페르소나를 다루는 대규모 장기적 다중 모달 대화 데이터셋인 Stark를 소개합니다. 이 데이터셋은 다중 모달 형식, 시간 간격, 그리고 이미지를 포함합니다. Stark를 자동으로 구축하기 위해, 우리는 ChatGPT와 우리가 제안한 Plan-and-Execute 이미지 정렬기를 통해 장기적 다중 모달 대화를 생성하는 새로운 다중 모달 문맥화 프레임워크인 Mcu를 제안합니다. 우리의 Stark를 사용하여 다중 모달 대화 모델인 Ultron 7B를 학습시켰으며, 이 모델은 인상적인 시각적 상상 능력을 보여줍니다. 또한, 인간 평가를 통해 우리 데이터셋의 효과성을 입증합니다. 우리는 소스 코드와 데이터셋을 공개적으로 제공합니다.
English
Humans share a wide variety of images related to their personal experiences
within conversations via instant messaging tools. However, existing works focus
on (1) image-sharing behavior in singular sessions, leading to limited
long-term social interaction, and (2) a lack of personalized image-sharing
behavior. In this work, we introduce Stark, a large-scale long-term multi-modal
conversation dataset that covers a wide range of social personas in a
multi-modality format, time intervals, and images. To construct Stark
automatically, we propose a novel multi-modal contextualization framework, Mcu,
that generates long-term multi-modal dialogue distilled from ChatGPT and our
proposed Plan-and-Execute image aligner. Using our Stark, we train a
multi-modal conversation model, Ultron 7B, which demonstrates impressive visual
imagination ability. Furthermore, we demonstrate the effectiveness of our
dataset in human evaluation. We make our source code and dataset publicly
available.Summary
AI-Generated Summary