ChatPaper.aiChatPaper

Рассуждая как экономист: пост-обучение на экономических задачах способствует стратегической генерализации в больших языковых моделях

Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs

May 31, 2025
Авторы: Yufa Zhou, Shaobo Wang, Xingyu Dong, Xiangqi Jin, Yifang Chen, Yue Min, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang
cs.AI

Аннотация

Прямое обучение крупных языковых моделей (LLM) для многоагентных систем (MAS) остается сложной задачей из-за сложного моделирования вознаграждений, динамических взаимодействий агентов и высоких требований к обобщению. В данной работе исследуется, могут ли методы пост-обучения, в частности, контролируемое тонкое настройка (SFT) и обучение с подкреплением с проверяемыми вознаграждениями (RLVR), эффективно обобщаться на многоагентные сценарии. Мы используем экономическое мышление в качестве тестовой платформы, опираясь на его прочные основы в математике и теории игр, потребность в структурированном аналитическом мышлении и его актуальность для реальных приложений, таких как дизайн рынков, распределение ресурсов и анализ политики. Мы представляем Recon (Reasoning like an ECONomist), открытую LLM с 7 миллиардами параметров, пост-обученную на тщательно отобранном наборе данных из 2100 высококачественных задач экономического мышления. Комплексная оценка на тестах экономического мышления и многоагентных играх показывает явные улучшения в структурированном мышлении и экономической рациональности. Эти результаты подчеркивают перспективность пост-обучения, ориентированного на конкретную область, для улучшения мышления и согласованности агентов, проливая свет на роли SFT и RL в формировании поведения модели. Код доступен по адресу https://github.com/MasterZhou1/Recon.
English
Directly training Large Language Models (LLMs) for Multi-Agent Systems (MAS) remains challenging due to intricate reward modeling, dynamic agent interactions, and demanding generalization requirements. This paper explores whether post-training techniques, specifically Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR), can effectively generalize to multi-agent scenarios. We use economic reasoning as a testbed, leveraging its strong foundations in mathematics and game theory, its demand for structured analytical reasoning, and its relevance to real-world applications such as market design, resource allocation, and policy analysis. We introduce Recon (Reasoning like an ECONomist), a 7B-parameter open-source LLM post-trained on a hand-curated dataset of 2,100 high-quality economic reasoning problems. Comprehensive evaluation on economic reasoning benchmarks and multi-agent games reveals clear improvements in structured reasoning and economic rationality. These results underscore the promise of domain-aligned post-training for enhancing reasoning and agent alignment, shedding light on the roles of SFT and RL in shaping model behavior. Code is available at https://github.com/MasterZhou1/Recon .
PDF112June 3, 2025