ChatPaper.aiChatPaper

TimeHC-RL : Apprentissage par Renforcement Cognitif Hiérarchique avec Sensibilité Temporelle pour Améliorer l'Intelligence Sociale des Modèles de Langage de Grande Taille

TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence

May 30, 2025
Auteurs: Guiyang Hou, Xing Gao, Yuchuan Wu, Xiang Huang, Wenqi Zhang, Zhe Zheng, Yongliang Shen, Jialu Du, Fei Huang, Yongbin Li, Weiming Lu
cs.AI

Résumé

Récemment, les modèles de langage de grande taille (LLMs) ont réalisé des progrès significatifs dans des domaines liés au QI qui nécessitent une réflexion approfondie, tels que les mathématiques et la programmation. Cependant, l'amélioration du développement cognitif des LLMs dans les domaines sociaux, en particulier d'un point de vue post-entraînement, reste peu explorée. Considérant que le monde social suit une chronologie distincte et nécessite une combinaison plus riche de modes cognitifs (allant des réactions intuitives (Système 1) et de la pensée superficielle à la pensée délibérée (Système 2)) que les mathématiques, qui reposent principalement sur la cognition du Système 2 (raisonnement soigneux et étape par étape), nous introduisons l'apprentissage par renforcement cognitif hiérarchique temporellement conscient (TimeHC-RL) pour améliorer l'intelligence sociale des LLMs. Dans nos expériences, nous explorons systématiquement l'amélioration de l'intelligence sociale des LLMs et validons l'efficacité de la méthode TimeHC-RL, à travers cinq autres paradigmes post-entraînement et deux paradigmes d'intervention en temps de test sur huit ensembles de données présentant des modèles de données variés. Les résultats expérimentaux révèlent la supériorité de notre méthode TimeHC-RL proposée par rapport à la méthode largement adoptée du Système 2 RL. Elle donne des ailes au modèle de base de 7B, lui permettant de rivaliser avec les performances de modèles avancés comme DeepSeek-R1 et OpenAI-O3. De plus, l'exploration systématique des perspectives post-entraînement et des interventions en temps de test pour améliorer l'intelligence sociale des LLMs a permis de découvrir plusieurs insights précieux.
English
Recently, Large Language Models (LLMs) have made significant progress in IQ-related domains that require careful thinking, such as mathematics and coding. However, enhancing LLMs' cognitive development in social domains, particularly from a post-training perspective, remains underexplored. Recognizing that the social world follows a distinct timeline and requires a richer blend of cognitive modes (from intuitive reactions (System 1) and surface-level thinking to deliberate thinking (System 2)) than mathematics, which primarily relies on System 2 cognition (careful, step-by-step reasoning), we introduce Temporal-aware Hierarchical Cognitive Reinforcement Learning (TimeHC-RL) for enhancing LLMs' social intelligence. In our experiments, we systematically explore improving LLMs' social intelligence and validate the effectiveness of the TimeHC-RL method, through five other post-training paradigms and two test-time intervention paradigms on eight datasets with diverse data patterns. Experimental results reveal the superiority of our proposed TimeHC-RL method compared to the widely adopted System 2 RL method. It gives the 7B backbone model wings, enabling it to rival the performance of advanced models like DeepSeek-R1 and OpenAI-O3. Additionally, the systematic exploration from post-training and test-time interventions perspectives to improve LLMs' social intelligence has uncovered several valuable insights.
PDF112June 5, 2025