ChatPaper.aiChatPaper

Naar een Mensachtige Multimodale Conversatieagent door het Genereren van Boeiende Spraak

Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech

September 18, 2025
Auteurs: Taesoo Kim, Yongsik Jo, Hyunmin Song, Taehwan Kim
cs.AI

Samenvatting

Menselijke conversatie omvat taal, spraak en visuele signalen, waarbij elk medium aanvullende informatie biedt. Spraak brengt bijvoorbeeld een sfeer of toon over die niet volledig wordt vastgelegd door tekst alleen. Hoewel multimodale LLM's zich richten op het genereren van tekstreacties vanuit diverse invoer, is er minder aandacht besteed aan het genereren van natuurlijke en boeiende spraak. Wij stellen een menselijk aandoende agent voor die spraakreacties genereert op basis van conversatiesfeer en responsieve stijlinformatie. Om dit te bereiken, bouwen we een nieuwe MultiSensory Conversation-dataset die gericht is op spraak, om agents in staat te stellen natuurlijke spraak te genereren. Vervolgens stellen we een multimodaal LLM-gebaseerd model voor voor het genereren van tekstreacties en stemomschrijvingen, die worden gebruikt om spraak te genereren die paralinguïstische informatie omvat. Experimentele resultaten tonen de effectiviteit aan van het gebruik van zowel visuele als auditieve modaliteiten in conversaties om boeiende spraak te genereren. De broncode is beschikbaar op https://github.com/kimtaesu24/MSenC.
English
Human conversation involves language, speech, and visual cues, with each medium providing complementary information. For instance, speech conveys a vibe or tone not fully captured by text alone. While multimodal LLMs focus on generating text responses from diverse inputs, less attention has been paid to generating natural and engaging speech. We propose a human-like agent that generates speech responses based on conversation mood and responsive style information. To achieve this, we build a novel MultiSensory Conversation dataset focused on speech to enable agents to generate natural speech. We then propose a multimodal LLM-based model for generating text responses and voice descriptions, which are used to generate speech covering paralinguistic information. Experimental results demonstrate the effectiveness of utilizing both visual and audio modalities in conversation to generate engaging speech. The source code is available in https://github.com/kimtaesu24/MSenC
PDF12September 23, 2025