ChatPaper.aiChatPaper

Rumo a um Agente Conversacional Multimodal Semelhante ao Humano por meio da Geração de Fala Engajadora

Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech

September 18, 2025
Autores: Taesoo Kim, Yongsik Jo, Hyunmin Song, Taehwan Kim
cs.AI

Resumo

A conversa humana envolve linguagem, fala e sinais visuais, com cada meio fornecendo informações complementares. Por exemplo, a fala transmite uma vibração ou tom que não é totalmente capturado apenas pelo texto. Embora os LLMs multimodais se concentrem na geração de respostas textuais a partir de diversas entradas, menos atenção tem sido dada à geração de fala natural e envolvente. Propomos um agente humanóide que gera respostas de fala com base no humor da conversa e em informações sobre o estilo de resposta. Para alcançar isso, construímos um novo conjunto de dados MultiSensory Conversation focado em fala para permitir que os agentes gerem fala natural. Em seguida, propomos um modelo baseado em LLM multimodal para gerar respostas textuais e descrições de voz, que são usadas para gerar fala cobrindo informações paralinguísticas. Os resultados experimentais demonstram a eficácia de utilizar tanto as modalidades visuais quanto as auditivas na conversa para gerar fala envolvente. O código-fonte está disponível em https://github.com/kimtaesu24/MSenC.
English
Human conversation involves language, speech, and visual cues, with each medium providing complementary information. For instance, speech conveys a vibe or tone not fully captured by text alone. While multimodal LLMs focus on generating text responses from diverse inputs, less attention has been paid to generating natural and engaging speech. We propose a human-like agent that generates speech responses based on conversation mood and responsive style information. To achieve this, we build a novel MultiSensory Conversation dataset focused on speech to enable agents to generate natural speech. We then propose a multimodal LLM-based model for generating text responses and voice descriptions, which are used to generate speech covering paralinguistic information. Experimental results demonstrate the effectiveness of utilizing both visual and audio modalities in conversation to generate engaging speech. The source code is available in https://github.com/kimtaesu24/MSenC
PDF12September 23, 2025