OmniResponse: Geração Online de Respostas Conversacionais Multimodais em Interações Diádicas
OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions
May 27, 2025
Autores: Cheng Luo, Jianghui Wang, Bing Li, Siyang Song, Bernard Ghanem
cs.AI
Resumo
Neste artigo, apresentamos a Geração de Respostas Conversacionais Multimodais Online (OMCRG, na sigla em inglês), uma nova tarefa que visa gerar online feedbacks sincronizados de ouvinte, tanto verbais quanto não verbais, condicionados à entrada multimodal do falante. A OMCRG reflete interações diádicas naturais e apresenta novos desafios na sincronização entre as respostas geradas em áudio e as expressões faciais do ouvinte. Para enfrentar esses desafios, introduzimos de forma inovadora o texto como uma modalidade intermediária para conectar as respostas de áudio e facial. Propomos, portanto, o OmniResponse, um Modelo de Linguagem Multimodal de Grande Escala (MLLM) que gera autoregressivamente respostas multimodais de alta qualidade do ouvinte. O OmniResponse aproveita um LLM pré-treinado aprimorado com dois novos componentes: o Chrono-Text, que ancora temporalmente os tokens de texto gerados, e o TempoVoice, um módulo de TTS online controlável que produz fala sincronizada com as reações faciais. Para apoiar pesquisas futuras em OMCRG, apresentamos o ResponseNet, um novo conjunto de dados composto por 696 interações diádicas de alta qualidade, contendo vídeos em tela dividida sincronizados, áudio multicanal, transcrições e anotações de comportamento facial. Avaliações abrangentes realizadas no ResponseNet demonstram que o OmniResponse supera significativamente os modelos de linha de base em termos de conteúdo semântico da fala, sincronização áudio-visual e qualidade de geração.
English
In this paper, we introduce Online Multimodal Conversational Response
Generation (OMCRG), a novel task that aims to online generate synchronized
verbal and non-verbal listener feedback, conditioned on the speaker's
multimodal input. OMCRG reflects natural dyadic interactions and poses new
challenges in achieving synchronization between the generated audio and facial
responses of the listener. To address these challenges, we innovatively
introduce text as an intermediate modality to bridge the audio and facial
responses. We hence propose OmniResponse, a Multimodal Large Language Model
(MLLM) that autoregressively generates high-quality multi-modal listener
responses. OmniResponse leverages a pretrained LLM enhanced with two novel
components: Chrono-Text, which temporally anchors generated text tokens, and
TempoVoice, a controllable online TTS module that produces speech synchronized
with facial reactions. To support further OMCRG research, we present
ResponseNet, a new dataset comprising 696 high-quality dyadic interactions
featuring synchronized split-screen videos, multichannel audio, transcripts,
and facial behavior annotations. Comprehensive evaluations conducted on
ResponseNet demonstrate that OmniResponse significantly outperforms baseline
models in terms of semantic speech content, audio-visual synchronization, and
generation quality.