TimeHC-RL: Aprendizado por Reforço Cognitivo Hierárquico com Consciência Temporal para Aprimorar a Inteligência Social de LLMs

Resumo

Recentemente, os Modelos de Linguagem de Grande Escala (LLMs) têm feito progressos significativos em domínios relacionados ao QI que exigem pensamento cuidadoso, como matemática e programação. No entanto, o aprimoramento do desenvolvimento cognitivo dos LLMs em domínios sociais, particularmente de uma perspectiva pós-treinamento, ainda é pouco explorado. Reconhecendo que o mundo social segue uma linha do tempo distinta e requer uma mistura mais rica de modos cognitivos (desde reações intuitivas (Sistema 1) e pensamento superficial até pensamento deliberado (Sistema 2)) do que a matemática, que depende principalmente da cognição do Sistema 2 (raciocínio cuidadoso e passo a passo), introduzimos o Aprendizado por Reforço Cognitivo Hierárquico com Consciência Temporal (TimeHC-RL) para aprimorar a inteligência social dos LLMs. Em nossos experimentos, exploramos sistematicamente a melhoria da inteligência social dos LLMs e validamos a eficácia do método TimeHC-RL, por meio de cinco outros paradigmas de pós-treinamento e dois paradigmas de intervenção em tempo de teste em oito conjuntos de dados com padrões de dados diversos. Os resultados experimentais revelam a superioridade do nosso método TimeHC-RL proposto em comparação com o amplamente adotado método de Reforço do Sistema 2. Ele dá asas ao modelo base de 7B, permitindo que ele rivalize com o desempenho de modelos avançados como DeepSeek-R1 e OpenAI-O3. Além disso, a exploração sistemática das perspectivas de pós-treinamento e intervenções em tempo de teste para melhorar a inteligência social dos LLMs revelou várias percepções valiosas.

English

Recently, Large Language Models (LLMs) have made significant progress in IQ-related domains that require careful thinking, such as mathematics and coding. However, enhancing LLMs' cognitive development in social domains, particularly from a post-training perspective, remains underexplored. Recognizing that the social world follows a distinct timeline and requires a richer blend of cognitive modes (from intuitive reactions (System 1) and surface-level thinking to deliberate thinking (System 2)) than mathematics, which primarily relies on System 2 cognition (careful, step-by-step reasoning), we introduce Temporal-aware Hierarchical Cognitive Reinforcement Learning (TimeHC-RL) for enhancing LLMs' social intelligence. In our experiments, we systematically explore improving LLMs' social intelligence and validate the effectiveness of the TimeHC-RL method, through five other post-training paradigms and two test-time intervention paradigms on eight datasets with diverse data patterns. Experimental results reveal the superiority of our proposed TimeHC-RL method compared to the widely adopted System 2 RL method. It gives the 7B backbone model wings, enabling it to rival the performance of advanced models like DeepSeek-R1 and OpenAI-O3. Additionally, the systematic exploration from post-training and test-time interventions perspectives to improve LLMs' social intelligence has uncovered several valuable insights.

TimeHC-RL: Aprendizado por Reforço Cognitivo Hierárquico com Consciência Temporal para Aprimorar a Inteligência Social de LLMs

TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence

Resumo

Support