ChatPaper.aiChatPaper

MIRAI: Valutazione di Agenti LLM per la Previsione di Eventi

MIRAI: Evaluating LLM Agents for Event Forecasting

July 1, 2024
Autori: Chenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang
cs.AI

Abstract

I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) hanno dotato gli agenti LLM della capacità di raccogliere autonomamente informazioni sul mondo, su cui condurre ragionamenti per risolvere problemi complessi. Data questa capacità, è cresciuto l'interesse nell'impiegare agenti LLM per prevedere eventi internazionali, che possono influenzare il processo decisionale e modellare lo sviluppo di politiche su scala globale. Nonostante questo crescente interesse, manca un benchmark rigoroso per valutare la capacità e l'affidabilità predittiva degli agenti LLM. Per colmare questa lacuna, introduciamo MIRAI, un nuovo benchmark progettato per valutare sistematicamente gli agenti LLM come previsori temporali nel contesto di eventi internazionali. Il nostro benchmark presenta un ambiente agentico con strumenti per accedere a un ampio database di eventi storici strutturati e articoli di notizie testuali. Abbiamo raffinato il database di eventi GDELT con un'attenta pulizia e analisi per curare una serie di task di previsione relazionale con diversi orizzonti temporali, valutando le capacità degli agenti LLM dalla previsione a breve termine a quella a lungo termine. Inoltre, implementiamo API per consentire agli agenti LLM di utilizzare diversi strumenti tramite un'interfaccia basata su codice. In sintesi, MIRAI valuta in modo completo le capacità degli agenti in tre dimensioni: 1) reperire e integrare autonomamente informazioni critiche da grandi database globali; 2) scrivere codici utilizzando API e librerie specifiche del dominio per l'uso degli strumenti; e 3) ragionare congiuntamente su conoscenze storiche provenienti da formati e periodi diversi per prevedere con precisione eventi futuri. Attraverso un benchmarking completo, miriamo a stabilire un framework affidabile per valutare le capacità degli agenti LLM nella previsione di eventi internazionali, contribuendo così allo sviluppo di modelli più accurati e affidabili per l'analisi delle relazioni internazionali.
English
Recent advancements in Large Language Models (LLMs) have empowered LLM agents to autonomously collect world information, over which to conduct reasoning to solve complex problems. Given this capability, increasing interests have been put into employing LLM agents for predicting international events, which can influence decision-making and shape policy development on an international scale. Despite such a growing interest, there is a lack of a rigorous benchmark of LLM agents' forecasting capability and reliability. To address this gap, we introduce MIRAI, a novel benchmark designed to systematically evaluate LLM agents as temporal forecasters in the context of international events. Our benchmark features an agentic environment with tools for accessing an extensive database of historical, structured events and textual news articles. We refine the GDELT event database with careful cleaning and parsing to curate a series of relational prediction tasks with varying forecasting horizons, assessing LLM agents' abilities from short-term to long-term forecasting. We further implement APIs to enable LLM agents to utilize different tools via a code-based interface. In summary, MIRAI comprehensively evaluates the agents' capabilities in three dimensions: 1) autonomously source and integrate critical information from large global databases; 2) write codes using domain-specific APIs and libraries for tool-use; and 3) jointly reason over historical knowledge from diverse formats and time to accurately predict future events. Through comprehensive benchmarking, we aim to establish a reliable framework for assessing the capabilities of LLM agents in forecasting international events, thereby contributing to the development of more accurate and trustworthy models for international relation analysis.
PDF183November 28, 2024