Raisonnement amélioré par la diversité pour les questions subjectives

papers.abstract

Les grands modèles de raisonnement (LRM) dotés de capacités étendues de chaînes de pensée (CoT) ont montré des performances solides sur des tâches objectives, telles que le raisonnement mathématique et la programmation. Cependant, leur efficacité sur des questions subjectives pouvant susciter des réponses variées selon les perspectives reste limitée par une tendance à un raisonnement homogène, introduite par la dépendance à une seule vérité de référence lors du réglage fin supervisé et à une récompense vérifiable dans l'apprentissage par renforcement. Motivés par la découverte que l'augmentation des perspectives de rôle améliore systématiquement les performances, nous proposons MultiRole-R1, un cadre renforcé par la diversité avec plusieurs perspectives de rôle, pour améliorer la précision et la diversité dans les tâches de raisonnement subjectif. MultiRole-R1 intègre un pipeline de construction de données non supervisé qui génère des chaînes de raisonnement incorporant des perspectives de rôle variées. Nous utilisons en outre l'apprentissage par renforcement via l'Optimisation Relative de Politique de Groupe (GRPO) avec modelage des récompenses, en considérant la diversité comme un signal de récompense en plus de la récompense vérifiable. Grâce à des fonctions de récompense spécialement conçues, nous favorisons avec succès la diversité des perspectives et la diversité lexicale, révélant une relation positive entre la diversité du raisonnement et la précision. Nos expériences sur six benchmarks démontrent l'efficacité et la généralisabilité de MultiRole-R1 pour améliorer à la fois le raisonnement subjectif et objectif, mettant en lumière le potentiel de l'entraînement renforcé par la diversité dans les LRM.

English

Large reasoning models (LRM) with long chain-of-thought (CoT) capabilities have shown strong performance on objective tasks, such as math reasoning and coding. However, their effectiveness on subjective questions that may have different responses from different perspectives is still limited by a tendency towards homogeneous reasoning, introduced by the reliance on a single ground truth in supervised fine-tuning and verifiable reward in reinforcement learning. Motivated by the finding that increasing role perspectives consistently improves performance, we propose MultiRole-R1, a diversity-enhanced framework with multiple role perspectives, to improve the accuracy and diversity in subjective reasoning tasks. MultiRole-R1 features an unsupervised data construction pipeline that generates reasoning chains that incorporate diverse role perspectives. We further employ reinforcement learning via Group Relative Policy Optimization (GRPO) with reward shaping, by taking diversity as a reward signal in addition to the verifiable reward. With specially designed reward functions, we successfully promote perspective diversity and lexical diversity, uncovering a positive relation between reasoning diversity and accuracy. Our experiment on six benchmarks demonstrates MultiRole-R1's effectiveness and generalizability in enhancing both subjective and objective reasoning, showcasing the potential of diversity-enhanced training in LRMs.

Raisonnement amélioré par la diversité pour les questions subjectives

Diversity-Enhanced Reasoning for Subjective Questions

papers.abstract

Support