ChatPaper.aiChatPaper

Vers un agent conversationnel multimodal ressemblant à l'humain grâce à la génération de discours captivant

Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech

September 18, 2025
papers.authors: Taesoo Kim, Yongsik Jo, Hyunmin Song, Taehwan Kim
cs.AI

papers.abstract

La conversation humaine implique le langage, la parole et les indices visuels, chaque médium fournissant des informations complémentaires. Par exemple, la parole transmet une ambiance ou un ton qui n'est pas entièrement capturé par le texte seul. Bien que les modèles de langage multimodaux (LLM) se concentrent sur la génération de réponses textuelles à partir d'entrées diverses, moins d'attention a été accordée à la génération d'une parole naturelle et engageante. Nous proposons un agent humanoïde qui génère des réponses vocales basées sur l'humeur de la conversation et des informations sur le style de réponse. Pour y parvenir, nous construisons un nouvel ensemble de données de conversation multisensorielle axé sur la parole, permettant aux agents de générer une parole naturelle. Nous proposons ensuite un modèle basé sur un LLM multimodal pour générer des réponses textuelles et des descriptions vocales, qui sont utilisées pour produire une parole couvrant des informations paralinguistiques. Les résultats expérimentaux démontrent l'efficacité de l'utilisation des modalités visuelles et audio dans la conversation pour générer une parole engageante. Le code source est disponible à l'adresse suivante : https://github.com/kimtaesu24/MSenC.
English
Human conversation involves language, speech, and visual cues, with each medium providing complementary information. For instance, speech conveys a vibe or tone not fully captured by text alone. While multimodal LLMs focus on generating text responses from diverse inputs, less attention has been paid to generating natural and engaging speech. We propose a human-like agent that generates speech responses based on conversation mood and responsive style information. To achieve this, we build a novel MultiSensory Conversation dataset focused on speech to enable agents to generate natural speech. We then propose a multimodal LLM-based model for generating text responses and voice descriptions, which are used to generate speech covering paralinguistic information. Experimental results demonstrate the effectiveness of utilizing both visual and audio modalities in conversation to generate engaging speech. The source code is available in https://github.com/kimtaesu24/MSenC
PDF12September 23, 2025