ChatPaper.aiChatPaper

GLEE: 언어 기반 경제 환경을 위한 통합 프레임워크 및 벤치마크

GLEE: A Unified Framework and Benchmark for Language-based Economic Environments

October 7, 2024
저자: Eilam Shapira, Omer Madmon, Itamar Reinman, Samuel Joseph Amouyal, Roi Reichart, Moshe Tennenholtz
cs.AI

초록

대형 언어 모델 (LLM)은 자연어를 통한 소통이 흔한 경제적 및 전략적 상호작용에서 상당한 잠재력을 보여줍니다. 이는 중요한 질문을 던집니다: LLM은 합리적으로 행동할까요? 그들은 인간 행동을 모방할 수 있을까요? 그들은 효율적이고 공정한 결과에 이를 경향이 있을까요? 전략적 상호작용에서 자연어의 역할은 무엇일까요? 경제적 환경의 특성이 이러한 동역학에 어떻게 영향을 미치는지는 더욱 중요해집니다. 이러한 질문들은 온라인 소매 플랫폼 및 추천 시스템과 같은 실제 데이터 기반 시스템에 LLM 기반 에이전트를 통합하는 경제적 및 사회적 영향에 관한 중요성을 갖습니다. ML 커뮤니티는 다중 에이전트 설정에서 LLM의 잠재력을 탐구해왔지만, 연구 간 가정, 설계 선택 및 평가 기준의 다양성으로 인해 견고하고 의미 있는 결론을 도출하기 어렵습니다. 이를 해결하기 위해, 우리는 두 플레이어, 순차, 언어 기반 게임에 대한 연구를 표준화하기 위한 벤치마크를 소개합니다. 경제 문헌에서 영감을 받아, 일관된 매개변수화, 자유도 및 경제적 측정치를 갖는 세 가지 기본 게임 패밀리를 정의하여 에이전트의 성능 (자이익) 및 게임 결과 (효율성 및 공정성)을 평가합니다. 상호작용 시뮬레이션 및 분석을 위한 오픈 소스 프레임워크를 개발하고, 다양한 게임 구성을 통해 LLM 대 LLM 상호작용 데이터셋과 인간 대 LLM 상호작용 추가 데이터셋을 수집합니다. 광범위한 실험을 통해 우리의 프레임워크와 데이터셋이 다음과 같은 용도로 활용될 수 있는지를 시연합니다: (i) 다양한 경제적 맥락에서 LLM 기반 에이전트의 행동을 인간 플레이어와 비교; (ii) 개별 및 집단 성능 측정에 따른 에이전트 평가; 및 (iii) 환경의 경제적 특성이 에이전트의 행동에 미치는 영향을 양적으로 평가합니다.
English
Large Language Models (LLMs) show significant potential in economic and strategic interactions, where communication via natural language is often prevalent. This raises key questions: Do LLMs behave rationally? Can they mimic human behavior? Do they tend to reach an efficient and fair outcome? What is the role of natural language in the strategic interaction? How do characteristics of the economic environment influence these dynamics? These questions become crucial concerning the economic and societal implications of integrating LLM-based agents into real-world data-driven systems, such as online retail platforms and recommender systems. While the ML community has been exploring the potential of LLMs in such multi-agent setups, varying assumptions, design choices and evaluation criteria across studies make it difficult to draw robust and meaningful conclusions. To address this, we introduce a benchmark for standardizing research on two-player, sequential, language-based games. Inspired by the economic literature, we define three base families of games with consistent parameterization, degrees of freedom and economic measures to evaluate agents' performance (self-gain), as well as the game outcome (efficiency and fairness). We develop an open-source framework for interaction simulation and analysis, and utilize it to collect a dataset of LLM vs. LLM interactions across numerous game configurations and an additional dataset of human vs. LLM interactions. Through extensive experimentation, we demonstrate how our framework and dataset can be used to: (i) compare the behavior of LLM-based agents to human players in various economic contexts; (ii) evaluate agents in both individual and collective performance measures; and (iii) quantify the effect of the economic characteristics of the environments on the behavior of agents.

Summary

AI-Generated Summary

PDF852November 16, 2024