MIRAI: Evaluación de Agentes de LLM para la Predicción de Eventos
MIRAI: Evaluating LLM Agents for Event Forecasting
July 1, 2024
Autores: Chenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang
cs.AI
Resumen
Los recientes avances en los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han dotado a los agentes basados en LLMs de la capacidad de recopilar información del mundo de manera autónoma, sobre la cual pueden realizar razonamientos para resolver problemas complejos. Dada esta capacidad, ha crecido el interés en emplear agentes de LLMs para predecir eventos internacionales, lo que puede influir en la toma de decisiones y en el desarrollo de políticas a escala global. A pesar de este creciente interés, existe una falta de un punto de referencia riguroso para evaluar la capacidad y fiabilidad de los agentes de LLMs en la predicción de eventos. Para abordar esta brecha, presentamos MIRAI, un nuevo punto de referencia diseñado para evaluar sistemáticamente a los agentes de LLMs como pronosticadores temporales en el contexto de eventos internacionales. Nuestro punto de referencia incluye un entorno agéntico con herramientas para acceder a una extensa base de datos de eventos históricos estructurados y artículos de noticias textuales. Refinamos la base de datos de eventos GDELT mediante una cuidadosa limpieza y análisis para crear una serie de tareas de predicción relacional con diferentes horizontes de pronóstico, evaluando las habilidades de los agentes de LLMs desde la predicción a corto plazo hasta la de largo plazo. Además, implementamos APIs para permitir que los agentes de LLMs utilicen diferentes herramientas a través de una interfaz basada en código. En resumen, MIRAI evalúa de manera integral las capacidades de los agentes en tres dimensiones: 1) recopilar e integrar de manera autónoma información crítica de grandes bases de datos globales; 2) escribir código utilizando APIs y bibliotecas específicas del dominio para el uso de herramientas; y 3) razonar conjuntamente sobre conocimientos históricos de diversos formatos y momentos para predecir con precisión eventos futuros. A través de una evaluación exhaustiva, nuestro objetivo es establecer un marco confiable para evaluar las capacidades de los agentes de LLMs en la predicción de eventos internacionales, contribuyendo así al desarrollo de modelos más precisos y confiables para el análisis de relaciones internacionales.
English
Recent advancements in Large Language Models (LLMs) have empowered LLM agents
to autonomously collect world information, over which to conduct reasoning to
solve complex problems. Given this capability, increasing interests have been
put into employing LLM agents for predicting international events, which can
influence decision-making and shape policy development on an international
scale. Despite such a growing interest, there is a lack of a rigorous benchmark
of LLM agents' forecasting capability and reliability. To address this gap, we
introduce MIRAI, a novel benchmark designed to systematically evaluate LLM
agents as temporal forecasters in the context of international events. Our
benchmark features an agentic environment with tools for accessing an extensive
database of historical, structured events and textual news articles. We refine
the GDELT event database with careful cleaning and parsing to curate a series
of relational prediction tasks with varying forecasting horizons, assessing LLM
agents' abilities from short-term to long-term forecasting. We further
implement APIs to enable LLM agents to utilize different tools via a code-based
interface. In summary, MIRAI comprehensively evaluates the agents' capabilities
in three dimensions: 1) autonomously source and integrate critical information
from large global databases; 2) write codes using domain-specific APIs and
libraries for tool-use; and 3) jointly reason over historical knowledge from
diverse formats and time to accurately predict future events. Through
comprehensive benchmarking, we aim to establish a reliable framework for
assessing the capabilities of LLM agents in forecasting international events,
thereby contributing to the development of more accurate and trustworthy models
for international relation analysis.Summary
AI-Generated Summary