ChatPaper.aiChatPaper

Raciocinar como um Economista: Pós-treinamento em Problemas Econômicos Induz Generalização Estratégica em Modelos de Linguagem de Grande Escala

Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs

May 31, 2025
Autores: Yufa Zhou, Shaobo Wang, Xingyu Dong, Xiangqi Jin, Yifang Chen, Yue Min, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang
cs.AI

Resumo

Treinar diretamente Modelos de Linguagem de Grande Escala (LLMs) para Sistemas Multiagentes (MAS) continua sendo um desafio devido à modelagem complexa de recompensas, interações dinâmicas entre agentes e exigências rigorosas de generalização. Este artigo investiga se técnicas de pós-treinamento, especificamente Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço com Recompensas Verificáveis (RLVR), podem efetivamente generalizar para cenários multiagentes. Utilizamos o raciocínio econômico como um campo de testes, aproveitando suas bases sólidas em matemática e teoria dos jogos, sua demanda por raciocínio analítico estruturado e sua relevância para aplicações do mundo real, como design de mercado, alocação de recursos e análise de políticas. Apresentamos o Recon (Raciocinar como um ECONomista), um LLM de código aberto com 7 bilhões de parâmetros, pós-treinado em um conjunto de dados cuidadosamente selecionado de 2.100 problemas de raciocínio econômico de alta qualidade. Uma avaliação abrangente em benchmarks de raciocínio econômico e jogos multiagentes revela melhorias claras no raciocínio estruturado e na racionalidade econômica. Esses resultados destacam o potencial do pós-treinamento alinhado ao domínio para aprimorar o raciocínio e o alinhamento de agentes, lançando luz sobre os papéis do SFT e do RL na modelagem do comportamento do modelo. O código está disponível em https://github.com/MasterZhou1/Recon.
English
Directly training Large Language Models (LLMs) for Multi-Agent Systems (MAS) remains challenging due to intricate reward modeling, dynamic agent interactions, and demanding generalization requirements. This paper explores whether post-training techniques, specifically Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR), can effectively generalize to multi-agent scenarios. We use economic reasoning as a testbed, leveraging its strong foundations in mathematics and game theory, its demand for structured analytical reasoning, and its relevance to real-world applications such as market design, resource allocation, and policy analysis. We introduce Recon (Reasoning like an ECONomist), a 7B-parameter open-source LLM post-trained on a hand-curated dataset of 2,100 high-quality economic reasoning problems. Comprehensive evaluation on economic reasoning benchmarks and multi-agent games reveals clear improvements in structured reasoning and economic rationality. These results underscore the promise of domain-aligned post-training for enhancing reasoning and agent alignment, shedding light on the roles of SFT and RL in shaping model behavior. Code is available at https://github.com/MasterZhou1/Recon .
PDF112June 3, 2025