ChatPaper.aiChatPaper

Benchmarken van LLM's voor Politicologie: Een Verenigde Naties Perspectief

Benchmarking LLMs for Political Science: A United Nations Perspective

February 19, 2025
Auteurs: Yueqing Liang, Liangwei Yang, Chen Wang, Congying Xia, Rui Meng, Xiongxiao Xu, Haoran Wang, Ali Payani, Kai Shu
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in natuurlijke taalverwerking, maar hun potentieel voor politieke besluitvorming met grote gevolgen blijft grotendeels onontgonnen. Dit artikel behandelt deze leemte door zich te richten op de toepassing van LLMs in het besluitvormingsproces van de Verenigde Naties (VN), waar de inzet bijzonder hoog is en politieke beslissingen verstrekkende gevolgen kunnen hebben. We introduceren een nieuwe dataset die bestaat uit openbaar beschikbare verslagen van de VN-Veiligheidsraad (UNSC) van 1994 tot 2024, inclusief conceptresoluties, stemmingsresultaten en diplomatieke toespraken. Met behulp van deze dataset stellen we de United Nations Benchmark (UNBench) voor, de eerste uitgebreide benchmark die is ontworpen om LLMs te evalueren op vier onderling verbonden politieke wetenschapstaken: co-penholderbeoordeling, vertegenwoordigerstemmingssimulatie, voorspelling van conceptadoptie en generatie van vertegenwoordigerverklaringen. Deze taken beslaan de drie fasen van het VN-besluitvormingsproces—opstellen, stemmen en bespreken—en hebben als doel om het vermogen van LLMs om politieke dynamiek te begrijpen en te simuleren te beoordelen. Onze experimentele analyse toont het potentieel en de uitdagingen van het toepassen van LLMs in dit domein, en biedt inzicht in hun sterke en zwakke punten in de politieke wetenschap. Dit werk draagt bij aan het groeiende snijvlak van AI en politieke wetenschap en opent nieuwe onderzoeks- en praktijktoepassingen in mondiaal bestuur. Het UNBench Repository is toegankelijk via: https://github.com/yueqingliang1/UNBench.
English
Large Language Models (LLMs) have achieved significant advances in natural language processing, yet their potential for high-stake political decision-making remains largely unexplored. This paper addresses the gap by focusing on the application of LLMs to the United Nations (UN) decision-making process, where the stakes are particularly high and political decisions can have far-reaching consequences. We introduce a novel dataset comprising publicly available UN Security Council (UNSC) records from 1994 to 2024, including draft resolutions, voting records, and diplomatic speeches. Using this dataset, we propose the United Nations Benchmark (UNBench), the first comprehensive benchmark designed to evaluate LLMs across four interconnected political science tasks: co-penholder judgment, representative voting simulation, draft adoption prediction, and representative statement generation. These tasks span the three stages of the UN decision-making process--drafting, voting, and discussing--and aim to assess LLMs' ability to understand and simulate political dynamics. Our experimental analysis demonstrates the potential and challenges of applying LLMs in this domain, providing insights into their strengths and limitations in political science. This work contributes to the growing intersection of AI and political science, opening new avenues for research and practical applications in global governance. The UNBench Repository can be accessed at: https://github.com/yueqingliang1/UNBench.

Summary

AI-Generated Summary

PDF22February 24, 2025