ChatPaper.aiChatPaper

MIRAI: Evaluatie van LLM-agents voor gebeurtenisvoorspelling

MIRAI: Evaluating LLM Agents for Event Forecasting

July 1, 2024
Auteurs: Chenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang
cs.AI

Samenvatting

Recente ontwikkelingen in Large Language Models (LLMs) hebben LLM-agents in staat gesteld om autonoom wereldinformatie te verzamelen en hierover te redeneren om complexe problemen op te lossen. Gezien deze mogelijkheid is er een groeiende interesse ontstaan in het inzetten van LLM-agents voor het voorspellen van internationale gebeurtenissen, wat besluitvorming kan beïnvloeden en beleidsontwikkeling op internationale schaal kan vormgeven. Ondanks deze groeiende interesse ontbreekt het aan een rigoureus benchmark voor de voorspellingscapaciteit en betrouwbaarheid van LLM-agents. Om deze leemte aan te pakken, introduceren we MIRAI, een nieuwe benchmark die is ontworpen om LLM-agents systematisch te evalueren als temporele voorspellers in de context van internationale gebeurtenissen. Onze benchmark beschikt over een agent-omgeving met tools voor toegang tot een uitgebreide database van historische, gestructureerde gebeurtenissen en tekstuele nieuwsartikelen. We verfijnen de GDELT-gebeurtenisdatabase door zorgvuldige opschoning en parsing om een reeks relationele voorspellingstaken met verschillende voorspellingshorizonnen samen te stellen, waarbij de vaardigheden van LLM-agents worden beoordeeld van kortetermijn- tot langetermijnvoorspellingen. We implementeren verder API's om LLM-agents in staat te stellen verschillende tools te gebruiken via een code-gebaseerde interface. Samenvattend evalueert MIRAI de capaciteiten van de agents op drie dimensies: 1) autonoom kritieke informatie verzamelen en integreren uit grote mondiale databases; 2) codes schrijven met domeinspecifieke API's en bibliotheken voor toolgebruik; en 3) gezamenlijk redeneren over historische kennis uit diverse formaten en tijden om toekomstige gebeurtenissen nauwkeurig te voorspellen. Door middel van uitgebreide benchmarking streven we ernaar een betrouwbaar kader te creëren voor het beoordelen van de capaciteiten van LLM-agents in het voorspellen van internationale gebeurtenissen, en zo bij te dragen aan de ontwikkeling van nauwkeurigere en betrouwbaardere modellen voor internationale relatieanalyse.
English
Recent advancements in Large Language Models (LLMs) have empowered LLM agents to autonomously collect world information, over which to conduct reasoning to solve complex problems. Given this capability, increasing interests have been put into employing LLM agents for predicting international events, which can influence decision-making and shape policy development on an international scale. Despite such a growing interest, there is a lack of a rigorous benchmark of LLM agents' forecasting capability and reliability. To address this gap, we introduce MIRAI, a novel benchmark designed to systematically evaluate LLM agents as temporal forecasters in the context of international events. Our benchmark features an agentic environment with tools for accessing an extensive database of historical, structured events and textual news articles. We refine the GDELT event database with careful cleaning and parsing to curate a series of relational prediction tasks with varying forecasting horizons, assessing LLM agents' abilities from short-term to long-term forecasting. We further implement APIs to enable LLM agents to utilize different tools via a code-based interface. In summary, MIRAI comprehensively evaluates the agents' capabilities in three dimensions: 1) autonomously source and integrate critical information from large global databases; 2) write codes using domain-specific APIs and libraries for tool-use; and 3) jointly reason over historical knowledge from diverse formats and time to accurately predict future events. Through comprehensive benchmarking, we aim to establish a reliable framework for assessing the capabilities of LLM agents in forecasting international events, thereby contributing to the development of more accurate and trustworthy models for international relation analysis.
PDF183February 7, 2026