人間らしいマルチモーダル対話エージェントの実現に向けて：魅力的な音声生成によるアプローチ

要旨

人間の会話は、言語、音声、視覚的な手がかりを含み、それぞれの媒体が補完的な情報を提供します。例えば、音声はテキストだけでは完全に捉えられない雰囲気やトーンを伝えます。マルチモーダルLLMは多様な入力からテキスト応答を生成することに焦点を当てていますが、自然で魅力的な音声を生成することにはあまり注意が払われていません。私たちは、会話のムードや応答スタイルの情報に基づいて音声応答を生成する人間らしいエージェントを提案します。これを実現するために、エージェントが自然な音声を生成できるようにするための音声に焦点を当てた新しいMultiSensory Conversationデータセットを構築します。次に、テキスト応答と音声記述を生成するためのマルチモーダルLLMベースのモデルを提案し、これを用いてパラ言語情報を含む音声を生成します。実験結果は、会話において視覚と音声の両方のモダリティを活用して魅力的な音声を生成する効果を示しています。ソースコードはhttps://github.com/kimtaesu24/MSenCで公開されています。

English

Human conversation involves language, speech, and visual cues, with each medium providing complementary information. For instance, speech conveys a vibe or tone not fully captured by text alone. While multimodal LLMs focus on generating text responses from diverse inputs, less attention has been paid to generating natural and engaging speech. We propose a human-like agent that generates speech responses based on conversation mood and responsive style information. To achieve this, we build a novel MultiSensory Conversation dataset focused on speech to enable agents to generate natural speech. We then propose a multimodal LLM-based model for generating text responses and voice descriptions, which are used to generate speech covering paralinguistic information. Experimental results demonstrate the effectiveness of utilizing both visual and audio modalities in conversation to generate engaging speech. The source code is available in https://github.com/kimtaesu24/MSenC

人間らしいマルチモーダル対話エージェントの実現に向けて：魅力的な音声生成によるアプローチ

Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech

要旨

Support