ChatPaper.aiChatPaper

R1-Omni: Reconocimiento Explicable de Emociones Omni-Multimodal con Aprendizaje por Refuerzo

R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning

March 7, 2025
Autores: Jiaxing Zhao, Xihan Wei, Liefeng Bo
cs.AI

Resumen

En este trabajo, presentamos la primera aplicación de Aprendizaje por Refuerzo con Recompensa Verificable (RLVR, por sus siglas en inglés) a un modelo de lenguaje grande omni-multimodal en el contexto del reconocimiento de emociones, una tarea en la que tanto las modalidades visuales como las auditivas desempeñan roles cruciales. Utilizamos RLVR para optimizar el modelo Omni, mejorando significativamente su rendimiento en tres aspectos clave: capacidad de razonamiento, precisión en el reconocimiento de emociones y capacidad de generalización. La introducción de RLVR no solo mejora el rendimiento general del modelo en datos de distribución interna, sino que también demuestra una robustez superior cuando se evalúa en conjuntos de datos de distribución externa. Más importante aún, la capacidad de razonamiento mejorada permite un análisis claro de las contribuciones de las diferentes modalidades, particularmente la información visual y auditiva, en el proceso de reconocimiento de emociones. Esto proporciona valiosos insights para la optimización de modelos de lenguaje grandes multimodales.
English
In this work, we present the first application of Reinforcement Learning with Verifiable Reward (RLVR) to an Omni-multimodal large language model in the context of emotion recognition, a task where both visual and audio modalities play crucial roles. We leverage RLVR to optimize the Omni model, significantly enhancing its performance in three key aspects: reasoning capability, emotion recognition accuracy, and generalization ability. The introduction of RLVR not only improves the model's overall performance on in-distribution data but also demonstrates superior robustness when evaluated on out-of-distribution datasets. More importantly, the improved reasoning capability enables clear analysis of the contributions of different modalities, particularly visual and audio information, in the emotion recognition process. This provides valuable insights into the optimization of multimodal large language models.

Summary

AI-Generated Summary

PDF373March 10, 2025