ChatPaper.aiChatPaper

TimeHC-RL: Apprendimento per Rinforzo Cognitivo Gerarchico con Consapevolezza Temporale per Potenziare l'Intelligenza Sociale dei Modelli Linguistici di Grande Dimensione

TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence

May 30, 2025
Autori: Guiyang Hou, Xing Gao, Yuchuan Wu, Xiang Huang, Wenqi Zhang, Zhe Zheng, Yongliang Shen, Jialu Du, Fei Huang, Yongbin Li, Weiming Lu
cs.AI

Abstract

Recentemente, i Large Language Models (LLM) hanno compiuto progressi significativi in domini legati al QI che richiedono un pensiero attento, come la matematica e la programmazione. Tuttavia, potenziare lo sviluppo cognitivo degli LLM in ambiti sociali, in particolare da una prospettiva post-addestramento, rimane ancora poco esplorato. Riconoscendo che il mondo sociale segue una linea temporale distinta e richiede una combinazione più ricca di modalità cognitive (dalle reazioni intuitive (Sistema 1) e il pensiero superficiale al pensiero deliberato (Sistema 2)) rispetto alla matematica, che si basa principalmente sulla cognizione del Sistema 2 (ragionamento attento e passo-passo), introduciamo il Temporal-aware Hierarchical Cognitive Reinforcement Learning (TimeHC-RL) per migliorare l'intelligenza sociale degli LLM. Nei nostri esperimenti, esploriamo sistematicamente il miglioramento dell'intelligenza sociale degli LLM e validiamo l'efficacia del metodo TimeHC-RL, attraverso cinque paradigmi post-addestramento e due paradigmi di intervento in fase di test su otto dataset con modelli di dati diversificati. I risultati sperimentali rivelano la superiorità del nostro metodo TimeHC-RL rispetto al metodo System 2 RL ampiamente adottato. Esso fornisce ali al modello backbone da 7B, consentendogli di rivaleggiare con le prestazioni di modelli avanzati come DeepSeek-R1 e OpenAI-O3. Inoltre, l'esplorazione sistematica da prospettive post-addestramento e di intervento in fase di test per migliorare l'intelligenza sociale degli LLM ha portato alla luce diverse intuizioni preziose.
English
Recently, Large Language Models (LLMs) have made significant progress in IQ-related domains that require careful thinking, such as mathematics and coding. However, enhancing LLMs' cognitive development in social domains, particularly from a post-training perspective, remains underexplored. Recognizing that the social world follows a distinct timeline and requires a richer blend of cognitive modes (from intuitive reactions (System 1) and surface-level thinking to deliberate thinking (System 2)) than mathematics, which primarily relies on System 2 cognition (careful, step-by-step reasoning), we introduce Temporal-aware Hierarchical Cognitive Reinforcement Learning (TimeHC-RL) for enhancing LLMs' social intelligence. In our experiments, we systematically explore improving LLMs' social intelligence and validate the effectiveness of the TimeHC-RL method, through five other post-training paradigms and two test-time intervention paradigms on eight datasets with diverse data patterns. Experimental results reveal the superiority of our proposed TimeHC-RL method compared to the widely adopted System 2 RL method. It gives the 7B backbone model wings, enabling it to rival the performance of advanced models like DeepSeek-R1 and OpenAI-O3. Additionally, the systematic exploration from post-training and test-time interventions perspectives to improve LLMs' social intelligence has uncovered several valuable insights.
PDF123June 5, 2025