R1-Omni: Reconhecimento Omni-Multimodal de Emoções Explicável com Aprendizado por Reforço
R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning
March 7, 2025
Autores: Jiaxing Zhao, Xihan Wei, Liefeng Bo
cs.AI
Resumo
Neste trabalho, apresentamos a primeira aplicação de Aprendizado por Reforço com Recompensa Verificável (RLVR) a um modelo de linguagem grande Omni-multimodal no contexto de reconhecimento de emoções, uma tarefa em que tanto as modalidades visuais quanto as auditivas desempenham papéis cruciais. Utilizamos o RLVR para otimizar o modelo Omni, melhorando significativamente seu desempenho em três aspectos-chave: capacidade de raciocínio, precisão no reconhecimento de emoções e capacidade de generalização. A introdução do RLVR não apenas aprimora o desempenho geral do modelo em dados de distribuição interna, mas também demonstra robustez superior quando avaliado em conjuntos de dados fora da distribuição. Mais importante ainda, a capacidade de raciocínio aprimorada permite uma análise clara das contribuições de diferentes modalidades, particularmente informações visuais e auditivas, no processo de reconhecimento de emoções. Isso fornece insights valiosos para a otimização de modelos de linguagem grande multimodais.
English
In this work, we present the first application of Reinforcement Learning with
Verifiable Reward (RLVR) to an Omni-multimodal large language model in the
context of emotion recognition, a task where both visual and audio modalities
play crucial roles. We leverage RLVR to optimize the Omni model, significantly
enhancing its performance in three key aspects: reasoning capability, emotion
recognition accuracy, and generalization ability. The introduction of RLVR not
only improves the model's overall performance on in-distribution data but also
demonstrates superior robustness when evaluated on out-of-distribution
datasets. More importantly, the improved reasoning capability enables clear
analysis of the contributions of different modalities, particularly visual and
audio information, in the emotion recognition process. This provides valuable
insights into the optimization of multimodal large language models.Summary
AI-Generated Summary