R1-Omni: Reconocimiento Explicable de Emociones Omni-Multimodal con Aprendizaje por Refuerzo
R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning
March 7, 2025
Autores: Jiaxing Zhao, Xihan Wei, Liefeng Bo
cs.AI
Resumen
En este trabajo, presentamos la primera aplicación de Aprendizaje por Refuerzo con Recompensa Verificable (RLVR, por sus siglas en inglés) a un modelo de lenguaje grande omni-multimodal en el contexto del reconocimiento de emociones, una tarea en la que tanto las modalidades visuales como las auditivas desempeñan roles cruciales. Utilizamos RLVR para optimizar el modelo Omni, mejorando significativamente su rendimiento en tres aspectos clave: capacidad de razonamiento, precisión en el reconocimiento de emociones y capacidad de generalización. La introducción de RLVR no solo mejora el rendimiento general del modelo en datos de distribución interna, sino que también demuestra una robustez superior cuando se evalúa en conjuntos de datos de distribución externa. Más importante aún, la capacidad de razonamiento mejorada permite un análisis claro de las contribuciones de las diferentes modalidades, particularmente la información visual y auditiva, en el proceso de reconocimiento de emociones. Esto proporciona valiosos insights para la optimización de modelos de lenguaje grandes multimodales.
English
In this work, we present the first application of Reinforcement Learning with
Verifiable Reward (RLVR) to an Omni-multimodal large language model in the
context of emotion recognition, a task where both visual and audio modalities
play crucial roles. We leverage RLVR to optimize the Omni model, significantly
enhancing its performance in three key aspects: reasoning capability, emotion
recognition accuracy, and generalization ability. The introduction of RLVR not
only improves the model's overall performance on in-distribution data but also
demonstrates superior robustness when evaluated on out-of-distribution
datasets. More importantly, the improved reasoning capability enables clear
analysis of the contributions of different modalities, particularly visual and
audio information, in the emotion recognition process. This provides valuable
insights into the optimization of multimodal large language models.Summary
AI-Generated Summary