R1-Omni: Uitlegbare Omni-Multimodale Emotieherkenning met Versterkend Leren
R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning
March 7, 2025
Auteurs: Jiaxing Zhao, Xihan Wei, Liefeng Bo
cs.AI
Samenvatting
In dit werk presenteren we de eerste toepassing van Reinforcement Learning met Verifieerbare Beloning (RLVR) op een Omni-multimodaal groot taalmodel in de context van emotieherkenning, een taak waarbij zowel visuele als auditieve modaliteiten een cruciale rol spelen. We benutten RLVR om het Omni-model te optimaliseren, waardoor de prestaties aanzienlijk worden verbeterd op drie belangrijke aspecten: redeneervermogen, nauwkeurigheid van emotieherkenning en generalisatievermogen. De introductie van RLVR verbetert niet alleen de algehele prestaties van het model op in-distributiegegevens, maar toont ook superieure robuustheid bij evaluatie op out-of-distributie datasets. Belangrijker nog, het verbeterde redeneervermogen maakt een duidelijke analyse mogelijk van de bijdragen van verschillende modaliteiten, met name visuele en auditieve informatie, in het emotieherkenningsproces. Dit biedt waardevolle inzichten voor de optimalisatie van multimodale grote taalmodelen.
English
In this work, we present the first application of Reinforcement Learning with
Verifiable Reward (RLVR) to an Omni-multimodal large language model in the
context of emotion recognition, a task where both visual and audio modalities
play crucial roles. We leverage RLVR to optimize the Omni model, significantly
enhancing its performance in three key aspects: reasoning capability, emotion
recognition accuracy, and generalization ability. The introduction of RLVR not
only improves the model's overall performance on in-distribution data but also
demonstrates superior robustness when evaluated on out-of-distribution
datasets. More importantly, the improved reasoning capability enables clear
analysis of the contributions of different modalities, particularly visual and
audio information, in the emotion recognition process. This provides valuable
insights into the optimization of multimodal large language models.Summary
AI-Generated Summary