ChatPaper.aiChatPaper

Hacia un Agente Conversacional Multimodal Similar al Humano mediante la Generación de Discurso Atractivo

Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech

September 18, 2025
Autores: Taesoo Kim, Yongsik Jo, Hyunmin Song, Taehwan Kim
cs.AI

Resumen

La conversación humana involucra lenguaje, habla y señales visuales, donde cada medio proporciona información complementaria. Por ejemplo, el habla transmite una vibra o tono que no se captura completamente solo con texto. Mientras que los LLM multimodales se centran en generar respuestas de texto a partir de entradas diversas, se ha prestado menos atención a la generación de habla natural y atractiva. Proponemos un agente de conversación humanoide que genera respuestas de habla basadas en el estado de ánimo de la conversación y la información del estilo de respuesta. Para lograrlo, construimos un nuevo conjunto de datos de Conversación MultiSensorial centrado en el habla, que permite a los agentes generar habla natural. Luego, proponemos un modelo basado en LLM multimodal para generar respuestas de texto y descripciones de voz, que se utilizan para generar habla que cubre información paralingüística. Los resultados experimentales demuestran la efectividad de utilizar tanto las modalidades visuales como las auditivas en la conversación para generar habla atractiva. El código fuente está disponible en https://github.com/kimtaesu24/MSenC.
English
Human conversation involves language, speech, and visual cues, with each medium providing complementary information. For instance, speech conveys a vibe or tone not fully captured by text alone. While multimodal LLMs focus on generating text responses from diverse inputs, less attention has been paid to generating natural and engaging speech. We propose a human-like agent that generates speech responses based on conversation mood and responsive style information. To achieve this, we build a novel MultiSensory Conversation dataset focused on speech to enable agents to generate natural speech. We then propose a multimodal LLM-based model for generating text responses and voice descriptions, which are used to generate speech covering paralinguistic information. Experimental results demonstrate the effectiveness of utilizing both visual and audio modalities in conversation to generate engaging speech. The source code is available in https://github.com/kimtaesu24/MSenC
PDF12September 23, 2025