Auf dem Weg zu einem menschenähnlichen multimodalen Konversationsagenten durch die Erzeugung ansprechender Sprache
Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech
September 18, 2025
papers.authors: Taesoo Kim, Yongsik Jo, Hyunmin Song, Taehwan Kim
cs.AI
papers.abstract
Menschliche Konversation umfasst Sprache, Sprechen und visuelle Hinweise, wobei jedes Medium komplementäre Informationen liefert. Beispielsweise vermittelt das Sprechen eine Stimmung oder einen Ton, der durch Text allein nicht vollständig erfasst wird. Während multimodale LLMs darauf abzielen, Textantworten aus verschiedenen Eingaben zu generieren, wurde der Erzeugung natürlicher und ansprechender Sprache weniger Aufmerksamkeit geschenkt. Wir schlagen einen menschenähnlichen Agenten vor, der Sprachantworten basierend auf der Gesprächsstimmung und Informationen zum Reaktionsstil generiert. Um dies zu erreichen, erstellen wir einen neuartigen MultiSensory Conversation-Datensatz, der sich auf Sprache konzentriert, um Agenten zu ermöglichen, natürliche Sprache zu erzeugen. Anschließend schlagen wir ein auf multimodalen LLMs basierendes Modell vor, das Textantworten und Sprachbeschreibungen generiert, die zur Erzeugung von Sprache verwendet werden, die paralinguistische Informationen abdeckt. Experimentelle Ergebnisse zeigen die Effektivität der Nutzung sowohl visueller als auch auditiver Modalitäten in der Konversation, um ansprechende Sprache zu generieren. Der Quellcode ist verfügbar unter https://github.com/kimtaesu24/MSenC.
English
Human conversation involves language, speech, and visual cues, with each
medium providing complementary information. For instance, speech conveys a vibe
or tone not fully captured by text alone. While multimodal LLMs focus on
generating text responses from diverse inputs, less attention has been paid to
generating natural and engaging speech. We propose a human-like agent that
generates speech responses based on conversation mood and responsive style
information. To achieve this, we build a novel MultiSensory Conversation
dataset focused on speech to enable agents to generate natural speech. We then
propose a multimodal LLM-based model for generating text responses and voice
descriptions, which are used to generate speech covering paralinguistic
information. Experimental results demonstrate the effectiveness of utilizing
both visual and audio modalities in conversation to generate engaging speech.
The source code is available in https://github.com/kimtaesu24/MSenC