ChatPaper.aiChatPaper

Ragionare come un Economista: L'Addestramento su Problemi Economici Induce una Generalizzazione Strategica nei Modelli Linguistici di Grande Dimensione

Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs

May 31, 2025
Autori: Yufa Zhou, Shaobo Wang, Xingyu Dong, Xiangqi Jin, Yifang Chen, Yue Min, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang
cs.AI

Abstract

L'addestramento diretto di Large Language Models (LLM) per Sistemi Multi-Agente (MAS) rimane una sfida a causa della complessa modellazione delle ricompense, delle interazioni dinamiche tra agenti e degli esigenti requisiti di generalizzazione. Questo articolo esplora se le tecniche di post-addestramento, in particolare il Fine-Tuning Supervisionato (SFT) e il Reinforcement Learning con Ricompense Verificabili (RLVR), possano generalizzare efficacemente a scenari multi-agente. Utilizziamo il ragionamento economico come banco di prova, sfruttando le sue solide basi matematiche e nella teoria dei giochi, la sua richiesta di ragionamento analitico strutturato e la sua rilevanza per applicazioni reali come la progettazione di mercati, l'allocazione delle risorse e l'analisi delle politiche. Introduciamo Recon (Reasoning like an ECONomist), un LLM open-source da 7 miliardi di parametri post-addestrato su un dataset curato manualmente di 2.100 problemi di ragionamento economico di alta qualità. Una valutazione completa su benchmark di ragionamento economico e giochi multi-agente rivela miglioramenti evidenti nel ragionamento strutturato e nella razionalità economica. Questi risultati sottolineano il potenziale del post-addestramento allineato al dominio per migliorare il ragionamento e l'allineamento degli agenti, gettando luce sui ruoli di SFT e RL nel modellare il comportamento del modello. Il codice è disponibile all'indirizzo https://github.com/MasterZhou1/Recon.
English
Directly training Large Language Models (LLMs) for Multi-Agent Systems (MAS) remains challenging due to intricate reward modeling, dynamic agent interactions, and demanding generalization requirements. This paper explores whether post-training techniques, specifically Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR), can effectively generalize to multi-agent scenarios. We use economic reasoning as a testbed, leveraging its strong foundations in mathematics and game theory, its demand for structured analytical reasoning, and its relevance to real-world applications such as market design, resource allocation, and policy analysis. We introduce Recon (Reasoning like an ECONomist), a 7B-parameter open-source LLM post-trained on a hand-curated dataset of 2,100 high-quality economic reasoning problems. Comprehensive evaluation on economic reasoning benchmarks and multi-agent games reveals clear improvements in structured reasoning and economic rationality. These results underscore the promise of domain-aligned post-training for enhancing reasoning and agent alignment, shedding light on the roles of SFT and RL in shaping model behavior. Code is available at https://github.com/MasterZhou1/Recon .
PDF112June 3, 2025