ChatPaper.aiChatPaper

Intensiv: Soziale Langzeit-Multi-Modale Unterhaltung mit Persona Allgemeinwissen

Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge

July 4, 2024
Autoren: Young-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Byungsoo Ko, Jonghwan Hyeon, Ho-Jin Choi
cs.AI

Zusammenfassung

Menschen teilen eine Vielzahl von Bildern, die mit ihren persönlichen Erfahrungen in Gesprächen über Instant-Messaging-Tools verbunden sind. Allerdings konzentrieren sich bestehende Arbeiten auf (1) das Verhalten des Bildteilens in einzelnen Sitzungen, was zu begrenzten langfristigen sozialen Interaktionen führt, und (2) ein Mangel an personalisiertem Bildteilungsverhalten. In dieser Arbeit stellen wir Stark vor, ein umfangreiches, langfristiges Multi-Modal-Konversationsdatenset, das eine breite Palette sozialer Persönlichkeiten in einem Multi-Modal-Format, Zeitintervallen und Bildern abdeckt. Um Stark automatisch zu erstellen, schlagen wir ein neuartiges Multi-Modal-Kontextualisierungs-Framework, Mcu, vor, das langfristige Multi-Modal-Dialoge generiert, die aus ChatGPT und unserem vorgeschlagenen Plan-and-Execute-Bildausrichter destilliert sind. Unter Verwendung von Stark trainieren wir ein Multi-Modal-Konversationsmodell, Ultron 7B, das eine beeindruckende visuelle Vorstellungskraft zeigt. Darüber hinaus zeigen wir die Wirksamkeit unseres Datensets in einer menschlichen Bewertung. Wir stellen unseren Quellcode und unser Datenset öffentlich zur Verfügung.
English
Humans share a wide variety of images related to their personal experiences within conversations via instant messaging tools. However, existing works focus on (1) image-sharing behavior in singular sessions, leading to limited long-term social interaction, and (2) a lack of personalized image-sharing behavior. In this work, we introduce Stark, a large-scale long-term multi-modal conversation dataset that covers a wide range of social personas in a multi-modality format, time intervals, and images. To construct Stark automatically, we propose a novel multi-modal contextualization framework, Mcu, that generates long-term multi-modal dialogue distilled from ChatGPT and our proposed Plan-and-Execute image aligner. Using our Stark, we train a multi-modal conversation model, Ultron 7B, which demonstrates impressive visual imagination ability. Furthermore, we demonstrate the effectiveness of our dataset in human evaluation. We make our source code and dataset publicly available.

Summary

AI-Generated Summary

PDF221November 28, 2024