Stark: Conversazione Multi-Modale Sociale a Lungo Termine con Persona e Conoscenza di Senso Comune

Abstract

Gli esseri umani condividono un'ampia varietà di immagini legate alle loro esperienze personali all'interno di conversazioni tramite strumenti di messaggistica istantanea. Tuttavia, i lavori esistenti si concentrano (1) sul comportamento di condivisione di immagini in sessioni singole, portando a un'interazione sociale a lungo termine limitata, e (2) su una mancanza di personalizzazione nel comportamento di condivisione di immagini. In questo lavoro, introduciamo Stark, un dataset di conversazioni multimodali su larga scala e a lungo termine che copre un'ampia gamma di personaggi sociali in formato multimodale, intervalli temporali e immagini. Per costruire Stark in modo automatico, proponiamo un nuovo framework di contestualizzazione multimodale, Mcu, che genera dialoghi multimodali a lungo termine distillati da ChatGPT e dal nostro allineatore di immagini Plan-and-Execute. Utilizzando Stark, addestriamo un modello di conversazione multimodale, Ultron 7B, che dimostra un'impressionante capacità di immaginazione visiva. Inoltre, dimostriamo l'efficacia del nostro dataset attraverso valutazioni umane. Rendiamo disponibili pubblicamente il nostro codice sorgente e il dataset.

English

Humans share a wide variety of images related to their personal experiences within conversations via instant messaging tools. However, existing works focus on (1) image-sharing behavior in singular sessions, leading to limited long-term social interaction, and (2) a lack of personalized image-sharing behavior. In this work, we introduce Stark, a large-scale long-term multi-modal conversation dataset that covers a wide range of social personas in a multi-modality format, time intervals, and images. To construct Stark automatically, we propose a novel multi-modal contextualization framework, Mcu, that generates long-term multi-modal dialogue distilled from ChatGPT and our proposed Plan-and-Execute image aligner. Using our Stark, we train a multi-modal conversation model, Ultron 7B, which demonstrates impressive visual imagination ability. Furthermore, we demonstrate the effectiveness of our dataset in human evaluation. We make our source code and dataset publicly available.

Stark: Conversazione Multi-Modale Sociale a Lungo Termine con Persona e Conoscenza di Senso Comune

Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge

Abstract

Support