Raisonnement amélioré par la diversité pour les questions subjectives
Diversity-Enhanced Reasoning for Subjective Questions
July 27, 2025
papers.authors: Yumeng Wang, Zhiyuan Fan, Jiayu Liu, Yi R. Fung
cs.AI
papers.abstract
Les grands modèles de raisonnement (LRM) dotés de capacités étendues de chaînes de pensée (CoT) ont montré des performances solides sur des tâches objectives, telles que le raisonnement mathématique et la programmation. Cependant, leur efficacité sur des questions subjectives pouvant susciter des réponses variées selon les perspectives reste limitée par une tendance à un raisonnement homogène, introduite par la dépendance à une seule vérité de référence lors du réglage fin supervisé et à une récompense vérifiable dans l'apprentissage par renforcement. Motivés par la découverte que l'augmentation des perspectives de rôle améliore systématiquement les performances, nous proposons MultiRole-R1, un cadre renforcé par la diversité avec plusieurs perspectives de rôle, pour améliorer la précision et la diversité dans les tâches de raisonnement subjectif. MultiRole-R1 intègre un pipeline de construction de données non supervisé qui génère des chaînes de raisonnement incorporant des perspectives de rôle variées. Nous utilisons en outre l'apprentissage par renforcement via l'Optimisation Relative de Politique de Groupe (GRPO) avec modelage des récompenses, en considérant la diversité comme un signal de récompense en plus de la récompense vérifiable. Grâce à des fonctions de récompense spécialement conçues, nous favorisons avec succès la diversité des perspectives et la diversité lexicale, révélant une relation positive entre la diversité du raisonnement et la précision. Nos expériences sur six benchmarks démontrent l'efficacité et la généralisabilité de MultiRole-R1 pour améliorer à la fois le raisonnement subjectif et objectif, mettant en lumière le potentiel de l'entraînement renforcé par la diversité dans les LRM.
English
Large reasoning models (LRM) with long chain-of-thought (CoT) capabilities
have shown strong performance on objective tasks, such as math reasoning and
coding. However, their effectiveness on subjective questions that may have
different responses from different perspectives is still limited by a tendency
towards homogeneous reasoning, introduced by the reliance on a single ground
truth in supervised fine-tuning and verifiable reward in reinforcement
learning. Motivated by the finding that increasing role perspectives
consistently improves performance, we propose MultiRole-R1, a
diversity-enhanced framework with multiple role perspectives, to improve the
accuracy and diversity in subjective reasoning tasks. MultiRole-R1 features an
unsupervised data construction pipeline that generates reasoning chains that
incorporate diverse role perspectives. We further employ reinforcement learning
via Group Relative Policy Optimization (GRPO) with reward shaping, by taking
diversity as a reward signal in addition to the verifiable reward. With
specially designed reward functions, we successfully promote perspective
diversity and lexical diversity, uncovering a positive relation between
reasoning diversity and accuracy. Our experiment on six benchmarks demonstrates
MultiRole-R1's effectiveness and generalizability in enhancing both subjective
and objective reasoning, showcasing the potential of diversity-enhanced
training in LRMs.