Raisonner comme un économiste : le post-entraînement sur des problèmes économiques induit une généralisation stratégique dans les LLM
Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs
May 31, 2025
Auteurs: Yufa Zhou, Shaobo Wang, Xingyu Dong, Xiangqi Jin, Yifang Chen, Yue Min, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang
cs.AI
Résumé
L’entraînement direct des modèles de langage de grande taille (LLMs) pour les systèmes multi-agents (MAS) reste un défi en raison de la complexité de la modélisation des récompenses, des interactions dynamiques entre agents et des exigences élevées en matière de généralisation. Cet article explore si les techniques de post-entraînement, notamment le réglage fin supervisé (SFT) et l’apprentissage par renforcement avec récompenses vérifiables (RLVR), peuvent généraliser efficacement aux scénarios multi-agents. Nous utilisons le raisonnement économique comme banc d’essai, en tirant parti de ses solides fondements mathématiques et en théorie des jeux, de son exigence en matière de raisonnement analytique structuré et de sa pertinence pour des applications réelles telles que la conception de marchés, l’allocation des ressources et l’analyse des politiques. Nous présentons Recon (Raisonner comme un ÉCONomiste), un LLM open-source de 7 milliards de paramètres post-entraîné sur un ensemble de données soigneusement sélectionné de 2 100 problèmes de raisonnement économique de haute qualité. Une évaluation approfondie sur des benchmarks de raisonnement économique et des jeux multi-agents révèle des améliorations significatives en matière de raisonnement structuré et de rationalité économique. Ces résultats soulignent le potentiel du post-entraînement aligné sur un domaine pour améliorer le raisonnement et l’alignement des agents, tout en éclairant les rôles du SFT et du RL dans la modélisation du comportement des modèles. Le code est disponible à l’adresse suivante : https://github.com/MasterZhou1/Recon.
English
Directly training Large Language Models (LLMs) for Multi-Agent Systems (MAS)
remains challenging due to intricate reward modeling, dynamic agent
interactions, and demanding generalization requirements. This paper explores
whether post-training techniques, specifically Supervised Fine-Tuning (SFT) and
Reinforcement Learning with Verifiable Rewards (RLVR), can effectively
generalize to multi-agent scenarios. We use economic reasoning as a
testbed, leveraging its strong foundations in mathematics and game theory, its
demand for structured analytical reasoning, and its relevance to real-world
applications such as market design, resource allocation, and policy analysis.
We introduce Recon (Reasoning like an
ECONomist), a 7B-parameter open-source LLM post-trained on a
hand-curated dataset of 2,100 high-quality economic reasoning problems.
Comprehensive evaluation on economic reasoning benchmarks and multi-agent games
reveals clear improvements in structured reasoning and economic rationality.
These results underscore the promise of domain-aligned post-training for
enhancing reasoning and agent alignment, shedding light on the roles of SFT and
RL in shaping model behavior. Code is available at
https://github.com/MasterZhou1/Recon .