ChatPaper.aiChatPaper

R1-Omni : Reconnaissance explicable des émotions omni-modales avec apprentissage par renforcement

R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning

March 7, 2025
Auteurs: Jiaxing Zhao, Xihan Wei, Liefeng Bo
cs.AI

Résumé

Dans ce travail, nous présentons la première application de l'apprentissage par renforcement avec récompense vérifiable (RLVR) à un modèle de langage large omni-multimodal dans le contexte de la reconnaissance des émotions, une tâche où les modalités visuelles et audio jouent des rôles cruciaux. Nous exploitons RLVR pour optimiser le modèle Omni, améliorant significativement ses performances dans trois aspects clés : la capacité de raisonnement, la précision de la reconnaissance des émotions et la capacité de généralisation. L'introduction de RLVR non seulement améliore les performances globales du modèle sur les données de distribution interne, mais démontre également une robustesse supérieure lors de l'évaluation sur des ensembles de données hors distribution. Plus important encore, l'amélioration de la capacité de raisonnement permet une analyse claire des contributions des différentes modalités, en particulier les informations visuelles et audio, dans le processus de reconnaissance des émotions. Cela fournit des insights précieux pour l'optimisation des modèles de langage large multimodaux.
English
In this work, we present the first application of Reinforcement Learning with Verifiable Reward (RLVR) to an Omni-multimodal large language model in the context of emotion recognition, a task where both visual and audio modalities play crucial roles. We leverage RLVR to optimize the Omni model, significantly enhancing its performance in three key aspects: reasoning capability, emotion recognition accuracy, and generalization ability. The introduction of RLVR not only improves the model's overall performance on in-distribution data but also demonstrates superior robustness when evaluated on out-of-distribution datasets. More importantly, the improved reasoning capability enables clear analysis of the contributions of different modalities, particularly visual and audio information, in the emotion recognition process. This provides valuable insights into the optimization of multimodal large language models.

Summary

AI-Generated Summary

PDF373March 10, 2025