OmniResponse: Generación de Respuestas Conversacionales Multimodales en Línea para Interacciones Diádicas
OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions
May 27, 2025
Autores: Cheng Luo, Jianghui Wang, Bing Li, Siyang Song, Bernard Ghanem
cs.AI
Resumen
En este artículo, presentamos la Generación de Respuestas Conversacionales Multimodales en Tiempo Real (OMCRG, por sus siglas en inglés), una tarea novedosa que busca generar de manera sincronizada retroalimentación verbal y no verbal del oyente, condicionada por la entrada multimodal del hablante. OMCRG refleja interacciones diádicas naturales y plantea nuevos desafíos en la sincronización entre las respuestas de audio y faciales generadas del oyente. Para abordar estos desafíos, introducimos de manera innovadora el texto como una modalidad intermedia que conecta las respuestas de audio y faciales. Proponemos OmniResponse, un Modelo de Lenguaje Multimodal de Gran Escala (MLLM) que genera autoregresivamente respuestas multimodales de alta calidad del oyente. OmniResponse aprovecha un LLM preentrenado mejorado con dos componentes novedosos: Chrono-Text, que ancla temporalmente los tokens de texto generados, y TempoVoice, un módulo de síntesis de voz en tiempo real controlable que produce habla sincronizada con las reacciones faciales. Para apoyar futuras investigaciones en OMCRG, presentamos ResponseNet, un nuevo conjunto de datos que incluye 696 interacciones diádicas de alta calidad con videos divididos sincronizados, audio multicanal, transcripciones y anotaciones de comportamiento facial. Evaluaciones exhaustivas realizadas en ResponseNet demuestran que OmniResponse supera significativamente a los modelos de referencia en términos de contenido semántico del habla, sincronización audiovisual y calidad de generación.
English
In this paper, we introduce Online Multimodal Conversational Response
Generation (OMCRG), a novel task that aims to online generate synchronized
verbal and non-verbal listener feedback, conditioned on the speaker's
multimodal input. OMCRG reflects natural dyadic interactions and poses new
challenges in achieving synchronization between the generated audio and facial
responses of the listener. To address these challenges, we innovatively
introduce text as an intermediate modality to bridge the audio and facial
responses. We hence propose OmniResponse, a Multimodal Large Language Model
(MLLM) that autoregressively generates high-quality multi-modal listener
responses. OmniResponse leverages a pretrained LLM enhanced with two novel
components: Chrono-Text, which temporally anchors generated text tokens, and
TempoVoice, a controllable online TTS module that produces speech synchronized
with facial reactions. To support further OMCRG research, we present
ResponseNet, a new dataset comprising 696 high-quality dyadic interactions
featuring synchronized split-screen videos, multichannel audio, transcripts,
and facial behavior annotations. Comprehensive evaluations conducted on
ResponseNet demonstrate that OmniResponse significantly outperforms baseline
models in terms of semantic speech content, audio-visual synchronization, and
generation quality.