Stark: Conversa Social Multi-Modal de Longo Prazo com Persona - Conhecimento de Senso Comum
Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge
July 4, 2024
Autores: Young-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Byungsoo Ko, Jonghwan Hyeon, Ho-Jin Choi
cs.AI
Resumo
Os humanos compartilham uma ampla variedade de imagens relacionadas às suas experiências pessoais em conversas por meio de ferramentas de mensagens instantâneas. No entanto, os trabalhos existentes se concentram (1) no comportamento de compartilhamento de imagens em sessões individuais, levando a uma interação social limitada a longo prazo, e (2) na falta de comportamento personalizado de compartilhamento de imagens. Neste trabalho, apresentamos Stark, um conjunto de dados de conversação multi-modal em larga escala de longo prazo que abrange uma ampla gama de personas sociais em um formato multi-modal, intervalos de tempo e imagens. Para construir o Stark automaticamente, propomos um novo framework de contextualização multi-modal, Mcu, que gera diálogos multi-modais de longo prazo destilados do ChatGPT e de nosso alinhador de imagens Propor-e-Executar proposto. Usando nosso Stark, treinamos um modelo de conversação multi-modal, Ultron 7B, que demonstra uma impressionante capacidade de imaginação visual. Além disso, demonstramos a eficácia de nosso conjunto de dados em avaliação humana. Disponibilizamos publicamente nosso código-fonte e conjunto de dados.
English
Humans share a wide variety of images related to their personal experiences
within conversations via instant messaging tools. However, existing works focus
on (1) image-sharing behavior in singular sessions, leading to limited
long-term social interaction, and (2) a lack of personalized image-sharing
behavior. In this work, we introduce Stark, a large-scale long-term multi-modal
conversation dataset that covers a wide range of social personas in a
multi-modality format, time intervals, and images. To construct Stark
automatically, we propose a novel multi-modal contextualization framework, Mcu,
that generates long-term multi-modal dialogue distilled from ChatGPT and our
proposed Plan-and-Execute image aligner. Using our Stark, we train a
multi-modal conversation model, Ultron 7B, which demonstrates impressive visual
imagination ability. Furthermore, we demonstrate the effectiveness of our
dataset in human evaluation. We make our source code and dataset publicly
available.