Stark : Conversation sociale multi-modale à long terme avec personnalité et connaissances de sens commun

papers.abstract

Les humains partagent une grande variété d'images liées à leurs expériences personnelles dans le cadre de conversations via des outils de messagerie instantanée. Cependant, les travaux existants se concentrent sur (1) le comportement de partage d'images dans des sessions uniques, ce qui limite les interactions sociales à long terme, et (2) un manque de personnalisation dans le comportement de partage d'images. Dans ce travail, nous présentons Stark, un jeu de données de conversations multimodales à grande échelle et à long terme, qui couvre un large éventail de personnalités sociales dans un format multimodal, avec des intervalles de temps et des images. Pour construire Stark automatiquement, nous proposons un nouveau cadre de contextualisation multimodale, Mcu, qui génère des dialogues multimodaux à long terme distillés à partir de ChatGPT et de notre aligneur d'images Plan-and-Execute. En utilisant Stark, nous entraînons un modèle de conversation multimodale, Ultron 7B, qui démontre une impressionnante capacité d'imagination visuelle. De plus, nous démontrons l'efficacité de notre jeu de données à travers une évaluation humaine. Nous mettons notre code source et notre jeu de données à disposition du public.

English

Humans share a wide variety of images related to their personal experiences within conversations via instant messaging tools. However, existing works focus on (1) image-sharing behavior in singular sessions, leading to limited long-term social interaction, and (2) a lack of personalized image-sharing behavior. In this work, we introduce Stark, a large-scale long-term multi-modal conversation dataset that covers a wide range of social personas in a multi-modality format, time intervals, and images. To construct Stark automatically, we propose a novel multi-modal contextualization framework, Mcu, that generates long-term multi-modal dialogue distilled from ChatGPT and our proposed Plan-and-Execute image aligner. Using our Stark, we train a multi-modal conversation model, Ultron 7B, which demonstrates impressive visual imagination ability. Furthermore, we demonstrate the effectiveness of our dataset in human evaluation. We make our source code and dataset publicly available.

Stark : Conversation sociale multi-modale à long terme avec personnalité et connaissances de sens commun

Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge

papers.abstract

Support