R1-Omni: Uitlegbare Omni-Multimodale Emotieherkenning met Versterkend Leren

Samenvatting

In dit werk presenteren we de eerste toepassing van Reinforcement Learning met Verifieerbare Beloning (RLVR) op een Omni-multimodaal groot taalmodel in de context van emotieherkenning, een taak waarbij zowel visuele als auditieve modaliteiten een cruciale rol spelen. We benutten RLVR om het Omni-model te optimaliseren, waardoor de prestaties aanzienlijk worden verbeterd op drie belangrijke aspecten: redeneervermogen, nauwkeurigheid van emotieherkenning en generalisatievermogen. De introductie van RLVR verbetert niet alleen de algehele prestaties van het model op in-distributiegegevens, maar toont ook superieure robuustheid bij evaluatie op out-of-distributie datasets. Belangrijker nog, het verbeterde redeneervermogen maakt een duidelijke analyse mogelijk van de bijdragen van verschillende modaliteiten, met name visuele en auditieve informatie, in het emotieherkenningsproces. Dit biedt waardevolle inzichten voor de optimalisatie van multimodale grote taalmodelen.

English

In this work, we present the first application of Reinforcement Learning with Verifiable Reward (RLVR) to an Omni-multimodal large language model in the context of emotion recognition, a task where both visual and audio modalities play crucial roles. We leverage RLVR to optimize the Omni model, significantly enhancing its performance in three key aspects: reasoning capability, emotion recognition accuracy, and generalization ability. The introduction of RLVR not only improves the model's overall performance on in-distribution data but also demonstrates superior robustness when evaluated on out-of-distribution datasets. More importantly, the improved reasoning capability enables clear analysis of the contributions of different modalities, particularly visual and audio information, in the emotion recognition process. This provides valuable insights into the optimization of multimodal large language models.

R1-Omni: Uitlegbare Omni-Multimodale Emotieherkenning met Versterkend Leren

R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning

Samenvatting

Support