ChatPaper.aiChatPaper

Razonar como un economista: el entrenamiento posterior en problemas económicos induce generalización estratégica en los LLM

Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs

May 31, 2025
Autores: Yufa Zhou, Shaobo Wang, Xingyu Dong, Xiangqi Jin, Yifang Chen, Yue Min, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang
cs.AI

Resumen

Entrenar directamente Modelos de Lenguaje de Gran Escala (LLMs) para Sistemas Multi-Agente (MAS) sigue siendo un desafío debido al modelado intrincado de recompensas, las interacciones dinámicas entre agentes y los exigentes requisitos de generalización. Este artículo explora si las técnicas de post-entrenamiento, específicamente el Ajuste Fino Supervisado (SFT) y el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), pueden generalizar efectivamente a escenarios multi-agente. Utilizamos el razonamiento económico como banco de pruebas, aprovechando sus sólidos fundamentos en matemáticas y teoría de juegos, su demanda de razonamiento analítico estructurado y su relevancia para aplicaciones del mundo real como el diseño de mercados, la asignación de recursos y el análisis de políticas. Presentamos Recon (Razonar como un ECONomista), un LLM de código abierto con 7 mil millones de parámetros post-entrenado en un conjunto de datos cuidadosamente seleccionado de 2,100 problemas de alta calidad sobre razonamiento económico. Una evaluación exhaustiva en benchmarks de razonamiento económico y juegos multi-agente revela mejoras claras en el razonamiento estructurado y la racionalidad económica. Estos resultados subrayan la promesa del post-entrenamiento alineado con el dominio para mejorar el razonamiento y la alineación de los agentes, arrojando luz sobre los roles del SFT y el RL en la configuración del comportamiento del modelo. El código está disponible en https://github.com/MasterZhou1/Recon.
English
Directly training Large Language Models (LLMs) for Multi-Agent Systems (MAS) remains challenging due to intricate reward modeling, dynamic agent interactions, and demanding generalization requirements. This paper explores whether post-training techniques, specifically Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR), can effectively generalize to multi-agent scenarios. We use economic reasoning as a testbed, leveraging its strong foundations in mathematics and game theory, its demand for structured analytical reasoning, and its relevance to real-world applications such as market design, resource allocation, and policy analysis. We introduce Recon (Reasoning like an ECONomist), a 7B-parameter open-source LLM post-trained on a hand-curated dataset of 2,100 high-quality economic reasoning problems. Comprehensive evaluation on economic reasoning benchmarks and multi-agent games reveals clear improvements in structured reasoning and economic rationality. These results underscore the promise of domain-aligned post-training for enhancing reasoning and agent alignment, shedding light on the roles of SFT and RL in shaping model behavior. Code is available at https://github.com/MasterZhou1/Recon .
PDF112June 3, 2025