ChatPaper.aiChatPaper

Ragionamento Potenziato dalla Diversità per Domande Soggettive

Diversity-Enhanced Reasoning for Subjective Questions

July 27, 2025
Autori: Yumeng Wang, Zhiyuan Fan, Jiayu Liu, Yi R. Fung
cs.AI

Abstract

I grandi modelli di ragionamento (LRM) con capacità di catena di pensiero (CoT) estesa hanno dimostrato prestazioni solide in compiti oggettivi, come il ragionamento matematico e la programmazione. Tuttavia, la loro efficacia su domande soggettive che possono avere risposte diverse da diverse prospettive è ancora limitata da una tendenza verso un ragionamento omogeneo, introdotta dalla dipendenza da una singola verità di riferimento nell'addestramento supervisionato e da ricompense verificabili nell'apprendimento per rinforzo. Motivati dalla scoperta che l'aumento delle prospettive di ruolo migliora costantemente le prestazioni, proponiamo MultiRole-R1, un framework potenziato dalla diversità con molteplici prospettive di ruolo, per migliorare l'accuratezza e la diversità nei compiti di ragionamento soggettivo. MultiRole-R1 include una pipeline di costruzione dei dati non supervisionata che genera catene di ragionamento che incorporano prospettive di ruolo diverse. Utilizziamo inoltre l'apprendimento per rinforzo tramite l'ottimizzazione relativa delle politiche di gruppo (GRPO) con modellazione delle ricompense, considerando la diversità come un segnale di ricompensa oltre alla ricompensa verificabile. Con funzioni di ricompensa appositamente progettate, promuoviamo con successo la diversità delle prospettive e la diversità lessicale, scoprendo una relazione positiva tra diversità di ragionamento e accuratezza. I nostri esperimenti su sei benchmark dimostrano l'efficacia e la generalizzabilità di MultiRole-R1 nel migliorare sia il ragionamento soggettivo che quello oggettivo, evidenziando il potenziale dell'addestramento potenziato dalla diversità nei LRM.
English
Large reasoning models (LRM) with long chain-of-thought (CoT) capabilities have shown strong performance on objective tasks, such as math reasoning and coding. However, their effectiveness on subjective questions that may have different responses from different perspectives is still limited by a tendency towards homogeneous reasoning, introduced by the reliance on a single ground truth in supervised fine-tuning and verifiable reward in reinforcement learning. Motivated by the finding that increasing role perspectives consistently improves performance, we propose MultiRole-R1, a diversity-enhanced framework with multiple role perspectives, to improve the accuracy and diversity in subjective reasoning tasks. MultiRole-R1 features an unsupervised data construction pipeline that generates reasoning chains that incorporate diverse role perspectives. We further employ reinforcement learning via Group Relative Policy Optimization (GRPO) with reward shaping, by taking diversity as a reward signal in addition to the verifiable reward. With specially designed reward functions, we successfully promote perspective diversity and lexical diversity, uncovering a positive relation between reasoning diversity and accuracy. Our experiment on six benchmarks demonstrates MultiRole-R1's effectiveness and generalizability in enhancing both subjective and objective reasoning, showcasing the potential of diversity-enhanced training in LRMs.
PDF222July 29, 2025