人間らしいマルチモーダル対話エージェントの実現に向けて:魅力的な音声生成によるアプローチ
Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech
September 18, 2025
著者: Taesoo Kim, Yongsik Jo, Hyunmin Song, Taehwan Kim
cs.AI
要旨
人間の会話は、言語、音声、視覚的な手がかりを含み、それぞれの媒体が補完的な情報を提供します。例えば、音声はテキストだけでは完全に捉えられない雰囲気やトーンを伝えます。マルチモーダルLLMは多様な入力からテキスト応答を生成することに焦点を当てていますが、自然で魅力的な音声を生成することにはあまり注意が払われていません。私たちは、会話のムードや応答スタイルの情報に基づいて音声応答を生成する人間らしいエージェントを提案します。これを実現するために、エージェントが自然な音声を生成できるようにするための音声に焦点を当てた新しいMultiSensory Conversationデータセットを構築します。次に、テキスト応答と音声記述を生成するためのマルチモーダルLLMベースのモデルを提案し、これを用いてパラ言語情報を含む音声を生成します。実験結果は、会話において視覚と音声の両方のモダリティを活用して魅力的な音声を生成する効果を示しています。ソースコードはhttps://github.com/kimtaesu24/MSenCで公開されています。
English
Human conversation involves language, speech, and visual cues, with each
medium providing complementary information. For instance, speech conveys a vibe
or tone not fully captured by text alone. While multimodal LLMs focus on
generating text responses from diverse inputs, less attention has been paid to
generating natural and engaging speech. We propose a human-like agent that
generates speech responses based on conversation mood and responsive style
information. To achieve this, we build a novel MultiSensory Conversation
dataset focused on speech to enable agents to generate natural speech. We then
propose a multimodal LLM-based model for generating text responses and voice
descriptions, which are used to generate speech covering paralinguistic
information. Experimental results demonstrate the effectiveness of utilizing
both visual and audio modalities in conversation to generate engaging speech.
The source code is available in https://github.com/kimtaesu24/MSenC