OmniResponse: Geração Online de Respostas Conversacionais Multimodais em Interações Diádicas

Resumo

Neste artigo, apresentamos a Geração de Respostas Conversacionais Multimodais Online (OMCRG, na sigla em inglês), uma nova tarefa que visa gerar online feedbacks sincronizados de ouvinte, tanto verbais quanto não verbais, condicionados à entrada multimodal do falante. A OMCRG reflete interações diádicas naturais e apresenta novos desafios na sincronização entre as respostas geradas em áudio e as expressões faciais do ouvinte. Para enfrentar esses desafios, introduzimos de forma inovadora o texto como uma modalidade intermediária para conectar as respostas de áudio e facial. Propomos, portanto, o OmniResponse, um Modelo de Linguagem Multimodal de Grande Escala (MLLM) que gera autoregressivamente respostas multimodais de alta qualidade do ouvinte. O OmniResponse aproveita um LLM pré-treinado aprimorado com dois novos componentes: o Chrono-Text, que ancora temporalmente os tokens de texto gerados, e o TempoVoice, um módulo de TTS online controlável que produz fala sincronizada com as reações faciais. Para apoiar pesquisas futuras em OMCRG, apresentamos o ResponseNet, um novo conjunto de dados composto por 696 interações diádicas de alta qualidade, contendo vídeos em tela dividida sincronizados, áudio multicanal, transcrições e anotações de comportamento facial. Avaliações abrangentes realizadas no ResponseNet demonstram que o OmniResponse supera significativamente os modelos de linha de base em termos de conteúdo semântico da fala, sincronização áudio-visual e qualidade de geração.

English

In this paper, we introduce Online Multimodal Conversational Response Generation (OMCRG), a novel task that aims to online generate synchronized verbal and non-verbal listener feedback, conditioned on the speaker's multimodal input. OMCRG reflects natural dyadic interactions and poses new challenges in achieving synchronization between the generated audio and facial responses of the listener. To address these challenges, we innovatively introduce text as an intermediate modality to bridge the audio and facial responses. We hence propose OmniResponse, a Multimodal Large Language Model (MLLM) that autoregressively generates high-quality multi-modal listener responses. OmniResponse leverages a pretrained LLM enhanced with two novel components: Chrono-Text, which temporally anchors generated text tokens, and TempoVoice, a controllable online TTS module that produces speech synchronized with facial reactions. To support further OMCRG research, we present ResponseNet, a new dataset comprising 696 high-quality dyadic interactions featuring synchronized split-screen videos, multichannel audio, transcripts, and facial behavior annotations. Comprehensive evaluations conducted on ResponseNet demonstrate that OmniResponse significantly outperforms baseline models in terms of semantic speech content, audio-visual synchronization, and generation quality.

OmniResponse: Geração Online de Respostas Conversacionais Multimodais em Interações Diádicas

OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions

Resumo

Support