ChatPaper.aiChatPaper

R1-Omni: Reconhecimento Omni-Multimodal de Emoções Explicável com Aprendizado por Reforço

R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning

March 7, 2025
Autores: Jiaxing Zhao, Xihan Wei, Liefeng Bo
cs.AI

Resumo

Neste trabalho, apresentamos a primeira aplicação de Aprendizado por Reforço com Recompensa Verificável (RLVR) a um modelo de linguagem grande Omni-multimodal no contexto de reconhecimento de emoções, uma tarefa em que tanto as modalidades visuais quanto as auditivas desempenham papéis cruciais. Utilizamos o RLVR para otimizar o modelo Omni, melhorando significativamente seu desempenho em três aspectos-chave: capacidade de raciocínio, precisão no reconhecimento de emoções e capacidade de generalização. A introdução do RLVR não apenas aprimora o desempenho geral do modelo em dados de distribuição interna, mas também demonstra robustez superior quando avaliado em conjuntos de dados fora da distribuição. Mais importante ainda, a capacidade de raciocínio aprimorada permite uma análise clara das contribuições de diferentes modalidades, particularmente informações visuais e auditivas, no processo de reconhecimento de emoções. Isso fornece insights valiosos para a otimização de modelos de linguagem grande multimodais.
English
In this work, we present the first application of Reinforcement Learning with Verifiable Reward (RLVR) to an Omni-multimodal large language model in the context of emotion recognition, a task where both visual and audio modalities play crucial roles. We leverage RLVR to optimize the Omni model, significantly enhancing its performance in three key aspects: reasoning capability, emotion recognition accuracy, and generalization ability. The introduction of RLVR not only improves the model's overall performance on in-distribution data but also demonstrates superior robustness when evaluated on out-of-distribution datasets. More importantly, the improved reasoning capability enables clear analysis of the contributions of different modalities, particularly visual and audio information, in the emotion recognition process. This provides valuable insights into the optimization of multimodal large language models.

Summary

AI-Generated Summary

PDF373March 10, 2025