경제학자처럼 사고하기: 경제 문제에 대한 사후 훈련이 LLM의 전략적 일반화를 유도한다
Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs
May 31, 2025
저자: Yufa Zhou, Shaobo Wang, Xingyu Dong, Xiangqi Jin, Yifang Chen, Yue Min, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang
cs.AI
초록
다중 에이전트 시스템(MAS)을 위해 대규모 언어 모델(LLM)을 직접 훈련시키는 것은 복잡한 보상 모델링, 동적인 에이전트 상호작용, 그리고 까다로운 일반화 요구 사항으로 인해 여전히 어려운 과제로 남아 있습니다. 본 논문은 사후 훈련 기법, 특히 지도 미세 조정(SFT)과 검증 가능한 보상을 활용한 강화 학습(RLVR)이 다중 에이전트 시나리오에 효과적으로 일반화될 수 있는지 탐구합니다. 우리는 경제적 추론을 테스트베드로 활용하며, 이는 수학과 게임 이론에 대한 강력한 기반, 구조화된 분석적 추론에 대한 요구, 그리고 시장 설계, 자원 할당, 정책 분석과 같은 실제 응용과의 관련성을 가지고 있습니다. 우리는 Recon(Reasoning like an ECONomist)을 소개합니다. 이는 2,100개의 고품질 경제적 추론 문제로 구성된 수작업 데이터셋에 사후 훈련된 7B 파라미터의 오픈소스 LLM입니다. 경제적 추론 벤치마크와 다중 에이전트 게임에 대한 포괄적인 평가는 구조화된 추론과 경제적 합리성에서의 명확한 개선을 보여줍니다. 이러한 결과는 도메인에 맞춘 사후 훈련이 추론과 에이전트 정렬을 강화하는 데 있어 유망함을 강조하며, SFT와 RL이 모델 행동을 형성하는 데 있어 역할을 밝혀줍니다. 코드는 https://github.com/MasterZhou1/Recon 에서 확인할 수 있습니다.
English
Directly training Large Language Models (LLMs) for Multi-Agent Systems (MAS)
remains challenging due to intricate reward modeling, dynamic agent
interactions, and demanding generalization requirements. This paper explores
whether post-training techniques, specifically Supervised Fine-Tuning (SFT) and
Reinforcement Learning with Verifiable Rewards (RLVR), can effectively
generalize to multi-agent scenarios. We use economic reasoning as a
testbed, leveraging its strong foundations in mathematics and game theory, its
demand for structured analytical reasoning, and its relevance to real-world
applications such as market design, resource allocation, and policy analysis.
We introduce Recon (Reasoning like an
ECONomist), a 7B-parameter open-source LLM post-trained on a
hand-curated dataset of 2,100 high-quality economic reasoning problems.
Comprehensive evaluation on economic reasoning benchmarks and multi-agent games
reveals clear improvements in structured reasoning and economic rationality.
These results underscore the promise of domain-aligned post-training for
enhancing reasoning and agent alignment, shedding light on the roles of SFT and
RL in shaping model behavior. Code is available at
https://github.com/MasterZhou1/Recon .