ChatPaper.aiChatPaper

Stark: Conversa Social Multi-Modal de Longo Prazo com Persona - Conhecimento de Senso Comum

Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge

July 4, 2024
Autores: Young-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Byungsoo Ko, Jonghwan Hyeon, Ho-Jin Choi
cs.AI

Resumo

Os humanos compartilham uma ampla variedade de imagens relacionadas às suas experiências pessoais em conversas por meio de ferramentas de mensagens instantâneas. No entanto, os trabalhos existentes se concentram (1) no comportamento de compartilhamento de imagens em sessões individuais, levando a uma interação social limitada a longo prazo, e (2) na falta de comportamento personalizado de compartilhamento de imagens. Neste trabalho, apresentamos Stark, um conjunto de dados de conversação multi-modal em larga escala de longo prazo que abrange uma ampla gama de personas sociais em um formato multi-modal, intervalos de tempo e imagens. Para construir o Stark automaticamente, propomos um novo framework de contextualização multi-modal, Mcu, que gera diálogos multi-modais de longo prazo destilados do ChatGPT e de nosso alinhador de imagens Propor-e-Executar proposto. Usando nosso Stark, treinamos um modelo de conversação multi-modal, Ultron 7B, que demonstra uma impressionante capacidade de imaginação visual. Além disso, demonstramos a eficácia de nosso conjunto de dados em avaliação humana. Disponibilizamos publicamente nosso código-fonte e conjunto de dados.
English
Humans share a wide variety of images related to their personal experiences within conversations via instant messaging tools. However, existing works focus on (1) image-sharing behavior in singular sessions, leading to limited long-term social interaction, and (2) a lack of personalized image-sharing behavior. In this work, we introduce Stark, a large-scale long-term multi-modal conversation dataset that covers a wide range of social personas in a multi-modality format, time intervals, and images. To construct Stark automatically, we propose a novel multi-modal contextualization framework, Mcu, that generates long-term multi-modal dialogue distilled from ChatGPT and our proposed Plan-and-Execute image aligner. Using our Stark, we train a multi-modal conversation model, Ultron 7B, which demonstrates impressive visual imagination ability. Furthermore, we demonstrate the effectiveness of our dataset in human evaluation. We make our source code and dataset publicly available.
PDF221November 28, 2024