ChatPaper.aiChatPaper

К созданию человекообразного мультимодального диалогового агента через генерацию увлекательной речи

Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech

September 18, 2025
Авторы: Taesoo Kim, Yongsik Jo, Hyunmin Song, Taehwan Kim
cs.AI

Аннотация

Человеческое общение включает язык, речь и визуальные сигналы, причем каждый из этих каналов предоставляет дополнительную информацию. Например, речь передает настроение или тон, которые не полностью улавливаются только текстом. В то время как мультимодальные языковые модели (LLM) сосредоточены на генерации текстовых ответов на основе разнообразных входных данных, меньше внимания уделяется созданию естественной и увлекательной речи. Мы предлагаем агента, похожего на человека, который генерирует речевые ответы на основе настроения беседы и информации о стиле реагирования. Для достижения этой цели мы создаем новый набор данных MultiSensory Conversation, ориентированный на речь, чтобы позволить агентам генерировать естественную речь. Затем мы предлагаем мультимодальную модель на основе LLM для генерации текстовых ответов и описаний голоса, которые используются для создания речи, охватывающей паралингвистическую информацию. Экспериментальные результаты демонстрируют эффективность использования как визуальных, так и аудио модальностей в беседе для генерации увлекательной речи. Исходный код доступен по адресу https://github.com/kimtaesu24/MSenC.
English
Human conversation involves language, speech, and visual cues, with each medium providing complementary information. For instance, speech conveys a vibe or tone not fully captured by text alone. While multimodal LLMs focus on generating text responses from diverse inputs, less attention has been paid to generating natural and engaging speech. We propose a human-like agent that generates speech responses based on conversation mood and responsive style information. To achieve this, we build a novel MultiSensory Conversation dataset focused on speech to enable agents to generate natural speech. We then propose a multimodal LLM-based model for generating text responses and voice descriptions, which are used to generate speech covering paralinguistic information. Experimental results demonstrate the effectiveness of utilizing both visual and audio modalities in conversation to generate engaging speech. The source code is available in https://github.com/kimtaesu24/MSenC
PDF12September 23, 2025