ChatPaper.aiChatPaper

OmniResponse: Generación de Respuestas Conversacionales Multimodales en Línea para Interacciones Diádicas

OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions

May 27, 2025
Autores: Cheng Luo, Jianghui Wang, Bing Li, Siyang Song, Bernard Ghanem
cs.AI

Resumen

En este artículo, presentamos la Generación de Respuestas Conversacionales Multimodales en Tiempo Real (OMCRG, por sus siglas en inglés), una tarea novedosa que busca generar de manera sincronizada retroalimentación verbal y no verbal del oyente, condicionada por la entrada multimodal del hablante. OMCRG refleja interacciones diádicas naturales y plantea nuevos desafíos en la sincronización entre las respuestas de audio y faciales generadas del oyente. Para abordar estos desafíos, introducimos de manera innovadora el texto como una modalidad intermedia que conecta las respuestas de audio y faciales. Proponemos OmniResponse, un Modelo de Lenguaje Multimodal de Gran Escala (MLLM) que genera autoregresivamente respuestas multimodales de alta calidad del oyente. OmniResponse aprovecha un LLM preentrenado mejorado con dos componentes novedosos: Chrono-Text, que ancla temporalmente los tokens de texto generados, y TempoVoice, un módulo de síntesis de voz en tiempo real controlable que produce habla sincronizada con las reacciones faciales. Para apoyar futuras investigaciones en OMCRG, presentamos ResponseNet, un nuevo conjunto de datos que incluye 696 interacciones diádicas de alta calidad con videos divididos sincronizados, audio multicanal, transcripciones y anotaciones de comportamiento facial. Evaluaciones exhaustivas realizadas en ResponseNet demuestran que OmniResponse supera significativamente a los modelos de referencia en términos de contenido semántico del habla, sincronización audiovisual y calidad de generación.
English
In this paper, we introduce Online Multimodal Conversational Response Generation (OMCRG), a novel task that aims to online generate synchronized verbal and non-verbal listener feedback, conditioned on the speaker's multimodal input. OMCRG reflects natural dyadic interactions and poses new challenges in achieving synchronization between the generated audio and facial responses of the listener. To address these challenges, we innovatively introduce text as an intermediate modality to bridge the audio and facial responses. We hence propose OmniResponse, a Multimodal Large Language Model (MLLM) that autoregressively generates high-quality multi-modal listener responses. OmniResponse leverages a pretrained LLM enhanced with two novel components: Chrono-Text, which temporally anchors generated text tokens, and TempoVoice, a controllable online TTS module that produces speech synchronized with facial reactions. To support further OMCRG research, we present ResponseNet, a new dataset comprising 696 high-quality dyadic interactions featuring synchronized split-screen videos, multichannel audio, transcripts, and facial behavior annotations. Comprehensive evaluations conducted on ResponseNet demonstrate that OmniResponse significantly outperforms baseline models in terms of semantic speech content, audio-visual synchronization, and generation quality.
PDF42June 3, 2025