Intensiv: Soziale Langzeit-Multi-Modale Unterhaltung mit Persona Allgemeinwissen
Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge
July 4, 2024
Autoren: Young-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Byungsoo Ko, Jonghwan Hyeon, Ho-Jin Choi
cs.AI
Zusammenfassung
Menschen teilen eine Vielzahl von Bildern, die mit ihren persönlichen Erfahrungen in Gesprächen über Instant-Messaging-Tools verbunden sind. Allerdings konzentrieren sich bestehende Arbeiten auf (1) das Verhalten des Bildteilens in einzelnen Sitzungen, was zu begrenzten langfristigen sozialen Interaktionen führt, und (2) ein Mangel an personalisiertem Bildteilungsverhalten. In dieser Arbeit stellen wir Stark vor, ein umfangreiches, langfristiges Multi-Modal-Konversationsdatenset, das eine breite Palette sozialer Persönlichkeiten in einem Multi-Modal-Format, Zeitintervallen und Bildern abdeckt. Um Stark automatisch zu erstellen, schlagen wir ein neuartiges Multi-Modal-Kontextualisierungs-Framework, Mcu, vor, das langfristige Multi-Modal-Dialoge generiert, die aus ChatGPT und unserem vorgeschlagenen Plan-and-Execute-Bildausrichter destilliert sind. Unter Verwendung von Stark trainieren wir ein Multi-Modal-Konversationsmodell, Ultron 7B, das eine beeindruckende visuelle Vorstellungskraft zeigt. Darüber hinaus zeigen wir die Wirksamkeit unseres Datensets in einer menschlichen Bewertung. Wir stellen unseren Quellcode und unser Datenset öffentlich zur Verfügung.
English
Humans share a wide variety of images related to their personal experiences
within conversations via instant messaging tools. However, existing works focus
on (1) image-sharing behavior in singular sessions, leading to limited
long-term social interaction, and (2) a lack of personalized image-sharing
behavior. In this work, we introduce Stark, a large-scale long-term multi-modal
conversation dataset that covers a wide range of social personas in a
multi-modality format, time intervals, and images. To construct Stark
automatically, we propose a novel multi-modal contextualization framework, Mcu,
that generates long-term multi-modal dialogue distilled from ChatGPT and our
proposed Plan-and-Execute image aligner. Using our Stark, we train a
multi-modal conversation model, Ultron 7B, which demonstrates impressive visual
imagination ability. Furthermore, we demonstrate the effectiveness of our
dataset in human evaluation. We make our source code and dataset publicly
available.Summary
AI-Generated Summary