Stark: Conversazione Multi-Modale Sociale a Lungo Termine con Persona e Conoscenza di Senso Comune
Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge
July 4, 2024
Autori: Young-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Byungsoo Ko, Jonghwan Hyeon, Ho-Jin Choi
cs.AI
Abstract
Gli esseri umani condividono un'ampia varietà di immagini legate alle loro esperienze personali all'interno di conversazioni tramite strumenti di messaggistica istantanea. Tuttavia, i lavori esistenti si concentrano (1) sul comportamento di condivisione di immagini in sessioni singole, portando a un'interazione sociale a lungo termine limitata, e (2) su una mancanza di personalizzazione nel comportamento di condivisione di immagini. In questo lavoro, introduciamo Stark, un dataset di conversazioni multimodali su larga scala e a lungo termine che copre un'ampia gamma di personaggi sociali in formato multimodale, intervalli temporali e immagini. Per costruire Stark in modo automatico, proponiamo un nuovo framework di contestualizzazione multimodale, Mcu, che genera dialoghi multimodali a lungo termine distillati da ChatGPT e dal nostro allineatore di immagini Plan-and-Execute. Utilizzando Stark, addestriamo un modello di conversazione multimodale, Ultron 7B, che dimostra un'impressionante capacità di immaginazione visiva. Inoltre, dimostriamo l'efficacia del nostro dataset attraverso valutazioni umane. Rendiamo disponibili pubblicamente il nostro codice sorgente e il dataset.
English
Humans share a wide variety of images related to their personal experiences
within conversations via instant messaging tools. However, existing works focus
on (1) image-sharing behavior in singular sessions, leading to limited
long-term social interaction, and (2) a lack of personalized image-sharing
behavior. In this work, we introduce Stark, a large-scale long-term multi-modal
conversation dataset that covers a wide range of social personas in a
multi-modality format, time intervals, and images. To construct Stark
automatically, we propose a novel multi-modal contextualization framework, Mcu,
that generates long-term multi-modal dialogue distilled from ChatGPT and our
proposed Plan-and-Execute image aligner. Using our Stark, we train a
multi-modal conversation model, Ultron 7B, which demonstrates impressive visual
imagination ability. Furthermore, we demonstrate the effectiveness of our
dataset in human evaluation. We make our source code and dataset publicly
available.