Redeneren als een econoom: Post-training op economische problemen induceert strategische generalisatie in LLM's
Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs
May 31, 2025
Auteurs: Yufa Zhou, Shaobo Wang, Xingyu Dong, Xiangqi Jin, Yifang Chen, Yue Min, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang
cs.AI
Samenvatting
Het direct trainen van Large Language Models (LLMs) voor Multi-Agent Systems (MAS) blijft uitdagend vanwege complexe beloningsmodellering, dynamische agentinteracties en veeleisende generalisatievereisten. Dit artikel onderzoekt of post-trainingtechnieken, specifiek Supervised Fine-Tuning (SFT) en Reinforcement Learning with Verifiable Rewards (RLVR), effectief kunnen generaliseren naar multi-agent scenario's. We gebruiken economisch redeneren als testomgeving, waarbij we gebruikmaken van de sterke wiskundige en speltheoretische fundamenten, de vraag naar gestructureerd analytisch redeneren en de relevantie voor real-world toepassingen zoals marktontwerp, resourceallocatie en beleidsanalyse. We introduceren Recon (Reasoning like an ECONomist), een open-source LLM met 7B parameters dat is post-getraind op een handmatig samengestelde dataset van 2.100 hoogwaardige economische redeneerproblemen. Uitgebreide evaluatie op economische redeneerbenchmarks en multi-agent spellen toont duidelijke verbeteringen in gestructureerd redeneren en economische rationaliteit. Deze resultaten onderstrepen de belofte van domeingerichte post-training voor het verbeteren van redeneren en agentafstemming, en werpen licht op de rollen van SFT en RL in het vormgeven van modelgedrag. De code is beschikbaar op https://github.com/MasterZhou1/Recon.
English
Directly training Large Language Models (LLMs) for Multi-Agent Systems (MAS)
remains challenging due to intricate reward modeling, dynamic agent
interactions, and demanding generalization requirements. This paper explores
whether post-training techniques, specifically Supervised Fine-Tuning (SFT) and
Reinforcement Learning with Verifiable Rewards (RLVR), can effectively
generalize to multi-agent scenarios. We use economic reasoning as a
testbed, leveraging its strong foundations in mathematics and game theory, its
demand for structured analytical reasoning, and its relevance to real-world
applications such as market design, resource allocation, and policy analysis.
We introduce Recon (Reasoning like an
ECONomist), a 7B-parameter open-source LLM post-trained on a
hand-curated dataset of 2,100 high-quality economic reasoning problems.
Comprehensive evaluation on economic reasoning benchmarks and multi-agent games
reveals clear improvements in structured reasoning and economic rationality.
These results underscore the promise of domain-aligned post-training for
enhancing reasoning and agent alignment, shedding light on the roles of SFT and
RL in shaping model behavior. Code is available at
https://github.com/MasterZhou1/Recon .