R1-Omni : Reconnaissance explicable des émotions omni-modales avec apprentissage par renforcement
R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning
March 7, 2025
Auteurs: Jiaxing Zhao, Xihan Wei, Liefeng Bo
cs.AI
Résumé
Dans ce travail, nous présentons la première application de l'apprentissage par renforcement avec récompense vérifiable (RLVR) à un modèle de langage large omni-multimodal dans le contexte de la reconnaissance des émotions, une tâche où les modalités visuelles et audio jouent des rôles cruciaux. Nous exploitons RLVR pour optimiser le modèle Omni, améliorant significativement ses performances dans trois aspects clés : la capacité de raisonnement, la précision de la reconnaissance des émotions et la capacité de généralisation. L'introduction de RLVR non seulement améliore les performances globales du modèle sur les données de distribution interne, mais démontre également une robustesse supérieure lors de l'évaluation sur des ensembles de données hors distribution. Plus important encore, l'amélioration de la capacité de raisonnement permet une analyse claire des contributions des différentes modalités, en particulier les informations visuelles et audio, dans le processus de reconnaissance des émotions. Cela fournit des insights précieux pour l'optimisation des modèles de langage large multimodaux.
English
In this work, we present the first application of Reinforcement Learning with
Verifiable Reward (RLVR) to an Omni-multimodal large language model in the
context of emotion recognition, a task where both visual and audio modalities
play crucial roles. We leverage RLVR to optimize the Omni model, significantly
enhancing its performance in three key aspects: reasoning capability, emotion
recognition accuracy, and generalization ability. The introduction of RLVR not
only improves the model's overall performance on in-distribution data but also
demonstrates superior robustness when evaluated on out-of-distribution
datasets. More importantly, the improved reasoning capability enables clear
analysis of the contributions of different modalities, particularly visual and
audio information, in the emotion recognition process. This provides valuable
insights into the optimization of multimodal large language models.Summary
AI-Generated Summary