Stark: Социальный долгосрочный мультимодальный разговор с персонажем Общеизвестные знания
Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge
July 4, 2024
Авторы: Young-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Byungsoo Ko, Jonghwan Hyeon, Ho-Jin Choi
cs.AI
Аннотация
Люди делятся разнообразными изображениями, связанными с их личными
опытами, в рамках бесед с помощью инструментов мгновенного обмена сообщениями. Однако существующие работы сосредоточены на (1) поведении обмена изображениями в отдельных сессиях, что приводит к ограниченному долгосрочному социальному взаимодействию, и (2) отсутствии персонализированного поведения по обмену изображениями. В данной работе мы представляем Stark, крупномасштабный долгосрочный мультимодальный набор данных для бесед, охватывающий широкий спектр социальных персон в формате мультимодальности, временных интервалов и изображений. Для автоматического создания Stark мы предлагаем новую мультимодальную контекстуализационную структуру, Mcu, которая генерирует долгосрочный мультимодальный диалог, извлеченный из ChatGPT и нашего предложенного выравнивателя изображений Plan-and-Execute. Используя наш Stark, мы обучаем мультимодельную модель беседы, Ultron 7B, которая демонстрирует впечатляющую визуальную способность к воображению. Кроме того, мы демонстрируем эффективность нашего набора данных в человеческой оценке. Мы предоставляем наш исходный код и набор данных общественности.
English
Humans share a wide variety of images related to their personal experiences
within conversations via instant messaging tools. However, existing works focus
on (1) image-sharing behavior in singular sessions, leading to limited
long-term social interaction, and (2) a lack of personalized image-sharing
behavior. In this work, we introduce Stark, a large-scale long-term multi-modal
conversation dataset that covers a wide range of social personas in a
multi-modality format, time intervals, and images. To construct Stark
automatically, we propose a novel multi-modal contextualization framework, Mcu,
that generates long-term multi-modal dialogue distilled from ChatGPT and our
proposed Plan-and-Execute image aligner. Using our Stark, we train a
multi-modal conversation model, Ultron 7B, which demonstrates impressive visual
imagination ability. Furthermore, we demonstrate the effectiveness of our
dataset in human evaluation. We make our source code and dataset publicly
available.Summary
AI-Generated Summary