ChatPaper.aiChatPaper

정치과학을 위한 대형 언어 모델 벤치마킹: 유엔 관점에서

Benchmarking LLMs for Political Science: A United Nations Perspective

February 19, 2025
저자: Yueqing Liang, Liangwei Yang, Chen Wang, Congying Xia, Rui Meng, Xiongxiao Xu, Haoran Wang, Ali Payani, Kai Shu
cs.AI

초록

대형 언어 모델(LLMs)은 자연어 처리 분야에서 상당한 진전을 이루었으나, 고위험 정치적 의사결정에 대한 잠재력은 아직 크게 탐구되지 않았다. 본 논문은 특히 위험이 크고 정치적 결정이 광범위한 영향을 미칠 수 있는 유엔(UN) 의사결정 과정에 LLMs를 적용하는 데 초점을 맞춰 이 격차를 해소하고자 한다. 우리는 1994년부터 2024년까지 공개된 유엔 안전보장이사회(UNSC) 기록, 초안 결의안, 투표 기록, 외교 연설 등을 포함한 새로운 데이터셋을 소개한다. 이 데이터셋을 활용하여, 우리는 유엔 벤치마크(UNBench)를 제안한다. 이는 LLMs를 네 가지 상호 연결된 정치학 과제—공동 초안 작성자 판단, 대표 투표 시뮬레이션, 초안 채택 예측, 대표 성명 생성—에 걸쳐 평가하기 위해 설계된 첫 번째 종합 벤치마크이다. 이러한 과제들은 유엔 의사결정 과정의 세 단계—초안 작성, 투표, 논의—를 아우르며, LLMs가 정치적 역학을 이해하고 시뮬레이션하는 능력을 평가하는 것을 목표로 한다. 우리의 실험적 분석은 이 분야에 LLMs를 적용할 때의 잠재력과 과제를 보여주며, 정치학에서의 강점과 한계에 대한 통찰을 제공한다. 이 연구는 AI와 정치학의 교차점을 확장하며, 글로벌 거버넌스에서의 연구와 실용적 응용을 위한 새로운 길을 열어준다. UNBench 저장소는 https://github.com/yueqingliang1/UNBench에서 확인할 수 있다.
English
Large Language Models (LLMs) have achieved significant advances in natural language processing, yet their potential for high-stake political decision-making remains largely unexplored. This paper addresses the gap by focusing on the application of LLMs to the United Nations (UN) decision-making process, where the stakes are particularly high and political decisions can have far-reaching consequences. We introduce a novel dataset comprising publicly available UN Security Council (UNSC) records from 1994 to 2024, including draft resolutions, voting records, and diplomatic speeches. Using this dataset, we propose the United Nations Benchmark (UNBench), the first comprehensive benchmark designed to evaluate LLMs across four interconnected political science tasks: co-penholder judgment, representative voting simulation, draft adoption prediction, and representative statement generation. These tasks span the three stages of the UN decision-making process--drafting, voting, and discussing--and aim to assess LLMs' ability to understand and simulate political dynamics. Our experimental analysis demonstrates the potential and challenges of applying LLMs in this domain, providing insights into their strengths and limitations in political science. This work contributes to the growing intersection of AI and political science, opening new avenues for research and practical applications in global governance. The UNBench Repository can be accessed at: https://github.com/yueqingliang1/UNBench.

Summary

AI-Generated Summary

PDF22February 24, 2025