Stark : Conversation sociale multi-modale à long terme avec personnalité et connaissances de sens commun
Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge
July 4, 2024
Auteurs: Young-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Byungsoo Ko, Jonghwan Hyeon, Ho-Jin Choi
cs.AI
Résumé
Les humains partagent une grande variété d'images liées à leurs expériences personnelles dans le cadre de conversations via des outils de messagerie instantanée. Cependant, les travaux existants se concentrent sur (1) le comportement de partage d'images dans des sessions uniques, ce qui limite les interactions sociales à long terme, et (2) un manque de personnalisation dans le comportement de partage d'images. Dans ce travail, nous présentons Stark, un jeu de données de conversations multimodales à grande échelle et à long terme, qui couvre un large éventail de personnalités sociales dans un format multimodal, avec des intervalles de temps et des images. Pour construire Stark automatiquement, nous proposons un nouveau cadre de contextualisation multimodale, Mcu, qui génère des dialogues multimodaux à long terme distillés à partir de ChatGPT et de notre aligneur d'images Plan-and-Execute. En utilisant Stark, nous entraînons un modèle de conversation multimodale, Ultron 7B, qui démontre une impressionnante capacité d'imagination visuelle. De plus, nous démontrons l'efficacité de notre jeu de données à travers une évaluation humaine. Nous mettons notre code source et notre jeu de données à disposition du public.
English
Humans share a wide variety of images related to their personal experiences
within conversations via instant messaging tools. However, existing works focus
on (1) image-sharing behavior in singular sessions, leading to limited
long-term social interaction, and (2) a lack of personalized image-sharing
behavior. In this work, we introduce Stark, a large-scale long-term multi-modal
conversation dataset that covers a wide range of social personas in a
multi-modality format, time intervals, and images. To construct Stark
automatically, we propose a novel multi-modal contextualization framework, Mcu,
that generates long-term multi-modal dialogue distilled from ChatGPT and our
proposed Plan-and-Execute image aligner. Using our Stark, we train a
multi-modal conversation model, Ultron 7B, which demonstrates impressive visual
imagination ability. Furthermore, we demonstrate the effectiveness of our
dataset in human evaluation. We make our source code and dataset publicly
available.Summary
AI-Generated Summary