R1-Omni: 강화 학습 기반 설명 가능한 범다중 감정 인식
R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning
March 7, 2025
저자: Jiaxing Zhao, Xihan Wei, Liefeng Bo
cs.AI
초록
본 연구에서는 감정 인식이라는 과제에 대해 오므니-멀티모달 대규모 언어 모델에 검증 가능한 보상 강화 학습(RLVR)을 최초로 적용하였다. 감정 인식은 시각적 및 청각적 양식이 모두 중요한 역할을 하는 과제이다. 우리는 RLVR을 활용하여 오므니 모델을 최적화함으로써, 추론 능력, 감정 인식 정확도, 일반화 능력이라는 세 가지 핵심 측면에서 모델의 성능을 크게 향상시켰다. RLVR의 도입은 모델의 인-분포 데이터에 대한 전반적인 성능을 개선할 뿐만 아니라, 아웃-오브-분포 데이터셋에서 평가할 때 더 우수한 견고성을 보여준다. 더 중요한 것은, 개선된 추론 능력이 감정 인식 과정에서 시각적 및 청각적 정보와 같은 다양한 양식의 기여를 명확히 분석할 수 있게 해준다는 점이다. 이는 멀티모달 대규모 언어 모델의 최적화에 대한 귀중한 통찰을 제공한다.
English
In this work, we present the first application of Reinforcement Learning with
Verifiable Reward (RLVR) to an Omni-multimodal large language model in the
context of emotion recognition, a task where both visual and audio modalities
play crucial roles. We leverage RLVR to optimize the Omni model, significantly
enhancing its performance in three key aspects: reasoning capability, emotion
recognition accuracy, and generalization ability. The introduction of RLVR not
only improves the model's overall performance on in-distribution data but also
demonstrates superior robustness when evaluated on out-of-distribution
datasets. More importantly, the improved reasoning capability enables clear
analysis of the contributions of different modalities, particularly visual and
audio information, in the emotion recognition process. This provides valuable
insights into the optimization of multimodal large language models.Summary
AI-Generated Summary