ChatPaper.aiChatPaper

Verso un Agente Conversazionale Multimodale Simile all'Umano attraverso la Generazione di Discorsi Coinvolgenti

Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech

September 18, 2025
Autori: Taesoo Kim, Yongsik Jo, Hyunmin Song, Taehwan Kim
cs.AI

Abstract

La conversazione umana coinvolge linguaggio, parlato e segnali visivi, con ciascun mezzo che fornisce informazioni complementari. Ad esempio, il parlato trasmette un'atmosfera o un tono non completamente catturati dal solo testo. Mentre i modelli linguistici multimodali (LLM) si concentrano sulla generazione di risposte testuali da input diversi, meno attenzione è stata dedicata alla generazione di un parlato naturale e coinvolgente. Proponiamo un agente umanoide che genera risposte vocali basate sull'umore della conversazione e sulle informazioni relative allo stile reattivo. Per raggiungere questo obiettivo, costruiamo un nuovo dataset MultiSensory Conversation focalizzato sul parlato, per consentire agli agenti di generare un parlato naturale. Proponiamo quindi un modello basato su LLM multimodale per generare risposte testuali e descrizioni vocali, che vengono utilizzate per generare un parlato che copre informazioni paralinguistiche. I risultati sperimentali dimostrano l'efficacia dell'utilizzo di entrambe le modalità visive e audio nella conversazione per generare un parlato coinvolgente. Il codice sorgente è disponibile su https://github.com/kimtaesu24/MSenC.
English
Human conversation involves language, speech, and visual cues, with each medium providing complementary information. For instance, speech conveys a vibe or tone not fully captured by text alone. While multimodal LLMs focus on generating text responses from diverse inputs, less attention has been paid to generating natural and engaging speech. We propose a human-like agent that generates speech responses based on conversation mood and responsive style information. To achieve this, we build a novel MultiSensory Conversation dataset focused on speech to enable agents to generate natural speech. We then propose a multimodal LLM-based model for generating text responses and voice descriptions, which are used to generate speech covering paralinguistic information. Experimental results demonstrate the effectiveness of utilizing both visual and audio modalities in conversation to generate engaging speech. The source code is available in https://github.com/kimtaesu24/MSenC
PDF12September 23, 2025