TimeHC-RL: Temporeel Bewust Hiërarchisch Cognitief Reinforcement Learning voor het Verbeteren van de Sociale Intelligentie van LLM's
TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence
May 30, 2025
Auteurs: Guiyang Hou, Xing Gao, Yuchuan Wu, Xiang Huang, Wenqi Zhang, Zhe Zheng, Yongliang Shen, Jialu Du, Fei Huang, Yongbin Li, Weiming Lu
cs.AI
Samenvatting
Onlangs hebben Large Language Models (LLM's) aanzienlijke vooruitgang geboekt in IQ-gerelateerde domeinen die zorgvuldig denken vereisen, zoals wiskunde en programmeren. Het verbeteren van de cognitieve ontwikkeling van LLM's in sociale domeinen, met name vanuit een post-trainingsperspectief, blijft echter onderbelicht. Erkennend dat de sociale wereld een apart tijdsverloop volgt en een rijkere mix van cognitieve modi vereist (van intuïtieve reacties (Systeem 1) en oppervlakkig denken tot weloverwogen denken (Systeem 2)) dan wiskunde, dat voornamelijk steunt op Systeem 2-cognitie (zorgvuldige, stapsgewijze redenering), introduceren we Temporal-aware Hierarchical Cognitive Reinforcement Learning (TimeHC-RL) om de sociale intelligentie van LLM's te verbeteren. In onze experimenten onderzoeken we systematisch het verbeteren van de sociale intelligentie van LLM's en valideren we de effectiviteit van de TimeHC-RL-methode, via vijf andere post-trainingsparadigma's en twee test-time interventieparadigma's op acht datasets met diverse datapatronen. Experimentele resultaten tonen de superioriteit van onze voorgestelde TimeHC-RL-methode aan in vergelijking met de veelgebruikte Systeem 2 RL-methode. Het geeft het 7B-backbonemodel vleugels, waardoor het de prestaties van geavanceerde modellen zoals DeepSeek-R1 en OpenAI-O3 kan evenaren. Daarnaast heeft het systematische onderzoek vanuit post-trainings- en test-time interventieperspectieven om de sociale intelligentie van LLM's te verbeteren, verschillende waardevolle inzichten aan het licht gebracht.
English
Recently, Large Language Models (LLMs) have made significant progress in
IQ-related domains that require careful thinking, such as mathematics and
coding. However, enhancing LLMs' cognitive development in social domains,
particularly from a post-training perspective, remains underexplored.
Recognizing that the social world follows a distinct timeline and requires a
richer blend of cognitive modes (from intuitive reactions (System 1) and
surface-level thinking to deliberate thinking (System 2)) than mathematics,
which primarily relies on System 2 cognition (careful, step-by-step reasoning),
we introduce Temporal-aware Hierarchical Cognitive Reinforcement Learning
(TimeHC-RL) for enhancing LLMs' social intelligence. In our experiments, we
systematically explore improving LLMs' social intelligence and validate the
effectiveness of the TimeHC-RL method, through five other post-training
paradigms and two test-time intervention paradigms on eight datasets with
diverse data patterns. Experimental results reveal the superiority of our
proposed TimeHC-RL method compared to the widely adopted System 2 RL method. It
gives the 7B backbone model wings, enabling it to rival the performance of
advanced models like DeepSeek-R1 and OpenAI-O3. Additionally, the systematic
exploration from post-training and test-time interventions perspectives to
improve LLMs' social intelligence has uncovered several valuable insights.