MIRAI: Evaluierung von LLM-Agenten für die Ereignisprognose
MIRAI: Evaluating LLM Agents for Event Forecasting
July 1, 2024
Autoren: Chenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang
cs.AI
Zusammenfassung
Die jüngsten Fortschritte bei Large Language Models (LLMs) haben LLM-Agenten befähigt, eigenständig weltweite Informationen zu sammeln, über die sie Schlussfolgerungen ziehen können, um komplexe Probleme zu lösen. Angesichts dieser Fähigkeit wächst das Interesse an der Verwendung von LLM-Agenten zur Vorhersage internationaler Ereignisse, die Entscheidungsfindung beeinflussen und die Entwicklung von Richtlinien auf internationaler Ebene formen können. Trotz dieses wachsenden Interesses fehlt es an einem strengen Maßstab für die Vorhersagefähigkeit und Zuverlässigkeit von LLM-Agenten. Um diese Lücke zu schließen, stellen wir MIRAI vor, einen neuartigen Maßstab, der entwickelt wurde, um LLM-Agenten systematisch als zeitliche Prognostiker im Kontext internationaler Ereignisse zu bewerten. Unser Maßstab umfasst eine agentische Umgebung mit Werkzeugen zum Zugriff auf eine umfangreiche Datenbank historischer, strukturierter Ereignisse und textbasierter Nachrichtenartikel. Wir verfeinern die GDELT-Ereignisdatenbank durch sorgfältige Bereinigung und Analyse, um eine Reihe von relationalen Vorhersageaufgaben mit unterschiedlichen Vorhersagehorizonten zu kuratieren, die die Fähigkeiten von LLM-Agenten von kurz- bis langfristiger Prognose bewerten. Darüber hinaus implementieren wir APIs, um LLM-Agenten die Nutzung verschiedener Werkzeuge über eine codebasierte Schnittstelle zu ermöglichen. Zusammenfassend bewertet MIRAI umfassend die Fähigkeiten der Agenten in drei Dimensionen: 1) eigenständige Beschaffung und Integration kritischer Informationen aus großen globalen Datenbanken; 2) Verfassen von Codes unter Verwendung von domänenspezifischen APIs und Bibliotheken für den Werkzeuggebrauch; und 3) gemeinsames Schlussfolgern über historisches Wissen aus verschiedenen Formaten und Zeiten, um zukünftige Ereignisse genau vorherzusagen. Durch umfassendes Benchmarking zielen wir darauf ab, einen zuverlässigen Rahmen für die Bewertung der Fähigkeiten von LLM-Agenten bei der Vorhersage internationaler Ereignisse zu schaffen und so zur Entwicklung genauerer und vertrauenswürdigerer Modelle für die Analyse internationaler Beziehungen beizutragen.
English
Recent advancements in Large Language Models (LLMs) have empowered LLM agents
to autonomously collect world information, over which to conduct reasoning to
solve complex problems. Given this capability, increasing interests have been
put into employing LLM agents for predicting international events, which can
influence decision-making and shape policy development on an international
scale. Despite such a growing interest, there is a lack of a rigorous benchmark
of LLM agents' forecasting capability and reliability. To address this gap, we
introduce MIRAI, a novel benchmark designed to systematically evaluate LLM
agents as temporal forecasters in the context of international events. Our
benchmark features an agentic environment with tools for accessing an extensive
database of historical, structured events and textual news articles. We refine
the GDELT event database with careful cleaning and parsing to curate a series
of relational prediction tasks with varying forecasting horizons, assessing LLM
agents' abilities from short-term to long-term forecasting. We further
implement APIs to enable LLM agents to utilize different tools via a code-based
interface. In summary, MIRAI comprehensively evaluates the agents' capabilities
in three dimensions: 1) autonomously source and integrate critical information
from large global databases; 2) write codes using domain-specific APIs and
libraries for tool-use; and 3) jointly reason over historical knowledge from
diverse formats and time to accurately predict future events. Through
comprehensive benchmarking, we aim to establish a reliable framework for
assessing the capabilities of LLM agents in forecasting international events,
thereby contributing to the development of more accurate and trustworthy models
for international relation analysis.Summary
AI-Generated Summary