TimeHC-RL: Временнáя иерархическая когнитивная обучение с подкреплением для повышения социального интеллекта больших языковых моделей
TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence
May 30, 2025
Авторы: Guiyang Hou, Xing Gao, Yuchuan Wu, Xiang Huang, Wenqi Zhang, Zhe Zheng, Yongliang Shen, Jialu Du, Fei Huang, Yongbin Li, Weiming Lu
cs.AI
Аннотация
В последнее время крупные языковые модели (LLM) достигли значительного прогресса в областях, связанных с интеллектуальными задачами, требующими тщательного обдумывания, таких как математика и программирование. Однако улучшение когнитивного развития LLM в социальных областях, особенно с точки зрения посттренировочного подхода, остается недостаточно изученным. Учитывая, что социальный мир следует уникальной временной динамике и требует более богатого сочетания когнитивных режимов (от интуитивных реакций (Система 1) и поверхностного мышления до обдуманного мышления (Система 2)), чем математика, которая в основном опирается на когницию Системы 2 (тщательное, пошаговое рассуждение), мы представляем метод Temporal-aware Hierarchical Cognitive Reinforcement Learning (TimeHC-RL) для повышения социального интеллекта LLM. В наших экспериментах мы систематически исследуем улучшение социального интеллекта LLM и подтверждаем эффективность метода TimeHC-RL, сравнивая его с пятью другими посттренировочными парадигмами и двумя парадигмами вмешательства на этапе тестирования на восьми наборах данных с разнообразными паттернами. Результаты экспериментов демонстрируют превосходство предложенного нами метода TimeHC-RL по сравнению с широко используемым методом System 2 RL. Он дает 7B-модели крылья, позволяя ей конкурировать с производительностью передовых моделей, таких как DeepSeek-R1 и OpenAI-O3. Кроме того, систематическое исследование с точки зрения посттренировочных и тестовых вмешательств для улучшения социального интеллекта LLM выявило несколько ценных инсайтов.
English
Recently, Large Language Models (LLMs) have made significant progress in
IQ-related domains that require careful thinking, such as mathematics and
coding. However, enhancing LLMs' cognitive development in social domains,
particularly from a post-training perspective, remains underexplored.
Recognizing that the social world follows a distinct timeline and requires a
richer blend of cognitive modes (from intuitive reactions (System 1) and
surface-level thinking to deliberate thinking (System 2)) than mathematics,
which primarily relies on System 2 cognition (careful, step-by-step reasoning),
we introduce Temporal-aware Hierarchical Cognitive Reinforcement Learning
(TimeHC-RL) for enhancing LLMs' social intelligence. In our experiments, we
systematically explore improving LLMs' social intelligence and validate the
effectiveness of the TimeHC-RL method, through five other post-training
paradigms and two test-time intervention paradigms on eight datasets with
diverse data patterns. Experimental results reveal the superiority of our
proposed TimeHC-RL method compared to the widely adopted System 2 RL method. It
gives the 7B backbone model wings, enabling it to rival the performance of
advanced models like DeepSeek-R1 and OpenAI-O3. Additionally, the systematic
exploration from post-training and test-time interventions perspectives to
improve LLMs' social intelligence has uncovered several valuable insights.