MIRAI : Évaluation des agents LLM pour la prévision d'événements
MIRAI: Evaluating LLM Agents for Event Forecasting
July 1, 2024
Auteurs: Chenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang
cs.AI
Résumé
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont permis aux agents LLM de collecter de manière autonome des informations sur le monde, sur lesquelles ils peuvent raisonner pour résoudre des problèmes complexes. Compte tenu de cette capacité, un intérêt croissant a été porté à l'utilisation des agents LLM pour prédire des événements internationaux, ce qui peut influencer la prise de décision et façonner le développement des politiques à l'échelle internationale. Malgré cet intérêt grandissant, il manque un benchmark rigoureux pour évaluer la capacité de prévision et la fiabilité des agents LLM. Pour combler cette lacune, nous introduisons MIRAI, un nouveau benchmark conçu pour évaluer systématiquement les agents LLM en tant que prévisionnistes temporels dans le contexte des événements internationaux. Notre benchmark propose un environnement agentique doté d'outils pour accéder à une vaste base de données d'événements historiques structurés et d'articles de presse textuels. Nous avons affiné la base de données d'événements GDELT grâce à un nettoyage et un parsing minutieux, afin de créer une série de tâches de prédiction relationnelle avec des horizons de prévision variés, évaluant les capacités des agents LLM de la prévision à court terme à long terme. Nous avons en outre implémenté des API pour permettre aux agents LLM d'utiliser différents outils via une interface basée sur le code. En résumé, MIRAI évalue de manière exhaustive les capacités des agents selon trois dimensions : 1) collecter et intégrer de manière autonome des informations critiques à partir de grandes bases de données mondiales ; 2) écrire des codes en utilisant des API et des bibliothèques spécifiques au domaine pour l'utilisation d'outils ; et 3) raisonner conjointement sur des connaissances historiques provenant de formats et de périodes variés pour prédire avec précision les événements futurs. Grâce à ce benchmarking complet, nous visons à établir un cadre fiable pour évaluer les capacités des agents LLM dans la prévision des événements internationaux, contribuant ainsi au développement de modèles plus précis et dignes de confiance pour l'analyse des relations internationales.
English
Recent advancements in Large Language Models (LLMs) have empowered LLM agents
to autonomously collect world information, over which to conduct reasoning to
solve complex problems. Given this capability, increasing interests have been
put into employing LLM agents for predicting international events, which can
influence decision-making and shape policy development on an international
scale. Despite such a growing interest, there is a lack of a rigorous benchmark
of LLM agents' forecasting capability and reliability. To address this gap, we
introduce MIRAI, a novel benchmark designed to systematically evaluate LLM
agents as temporal forecasters in the context of international events. Our
benchmark features an agentic environment with tools for accessing an extensive
database of historical, structured events and textual news articles. We refine
the GDELT event database with careful cleaning and parsing to curate a series
of relational prediction tasks with varying forecasting horizons, assessing LLM
agents' abilities from short-term to long-term forecasting. We further
implement APIs to enable LLM agents to utilize different tools via a code-based
interface. In summary, MIRAI comprehensively evaluates the agents' capabilities
in three dimensions: 1) autonomously source and integrate critical information
from large global databases; 2) write codes using domain-specific APIs and
libraries for tool-use; and 3) jointly reason over historical knowledge from
diverse formats and time to accurately predict future events. Through
comprehensive benchmarking, we aim to establish a reliable framework for
assessing the capabilities of LLM agents in forecasting international events,
thereby contributing to the development of more accurate and trustworthy models
for international relation analysis.Summary
AI-Generated Summary