Denken wie ein Ökonom: Nachträgliches Training an wirtschaftlichen Problemen induziert strategische Generalisierung in LLMs
Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs
May 31, 2025
Autoren: Yufa Zhou, Shaobo Wang, Xingyu Dong, Xiangqi Jin, Yifang Chen, Yue Min, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang
cs.AI
Zusammenfassung
Die direkte Ausbildung von Large Language Models (LLMs) für Multi-Agenten-Systeme (MAS) bleibt aufgrund komplexer Belohnungsmodellierung, dynamischer Agenteninteraktionen und anspruchsvoller Generalisierungsanforderungen eine Herausforderung. Diese Arbeit untersucht, ob Nachschulungstechniken, insbesondere Supervised Fine-Tuning (SFT) und Reinforcement Learning mit überprüfbaren Belohnungen (RLVR), effektiv auf Multi-Agenten-Szenarien verallgemeinern können. Wir verwenden wirtschaftliches Denken als Testumgebung, da es auf soliden mathematischen und spieltheoretischen Grundlagen basiert, strukturiertes analytisches Denken erfordert und für reale Anwendungen wie Marktgestaltung, Ressourcenallokation und Politikanalyse relevant ist. Wir stellen Recon (Reasoning like an ECONomist) vor, ein Open-Source-LLM mit 7 Milliarden Parametern, das auf einem handgefertigten Datensatz von 2.100 hochwertigen wirtschaftlichen Denkproblemen nachgeschult wurde. Eine umfassende Bewertung auf wirtschaftlichen Denkbenchmarks und Multi-Agenten-Spielen zeigt deutliche Verbesserungen in strukturiertem Denken und wirtschaftlicher Rationalität. Diese Ergebnisse unterstreichen das Potenzial domänenspezifischer Nachschulung zur Verbesserung des Denkens und der Agentenausrichtung und beleuchten die Rollen von SFT und RL bei der Gestaltung des Modellverhaltens. Der Code ist verfügbar unter https://github.com/MasterZhou1/Recon.
English
Directly training Large Language Models (LLMs) for Multi-Agent Systems (MAS)
remains challenging due to intricate reward modeling, dynamic agent
interactions, and demanding generalization requirements. This paper explores
whether post-training techniques, specifically Supervised Fine-Tuning (SFT) and
Reinforcement Learning with Verifiable Rewards (RLVR), can effectively
generalize to multi-agent scenarios. We use economic reasoning as a
testbed, leveraging its strong foundations in mathematics and game theory, its
demand for structured analytical reasoning, and its relevance to real-world
applications such as market design, resource allocation, and policy analysis.
We introduce Recon (Reasoning like an
ECONomist), a 7B-parameter open-source LLM post-trained on a
hand-curated dataset of 2,100 high-quality economic reasoning problems.
Comprehensive evaluation on economic reasoning benchmarks and multi-agent games
reveals clear improvements in structured reasoning and economic rationality.
These results underscore the promise of domain-aligned post-training for
enhancing reasoning and agent alignment, shedding light on the roles of SFT and
RL in shaping model behavior. Code is available at
https://github.com/MasterZhou1/Recon .