MIRAI: Avaliando Agentes LLM para Previsão de Eventos
MIRAI: Evaluating LLM Agents for Event Forecasting
July 1, 2024
Autores: Chenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang
cs.AI
Resumo
Os avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) capacitaram agentes LLM a coletar autonomamente informações globais, sobre as quais conduzem raciocínio para resolver problemas complexos. Dada essa capacidade, cresce o interesse em empregar agentes LLM para prever eventos internacionais, os quais podem influenciar tomadas de decisão e moldar o desenvolvimento de políticas em escala internacional. Apesar desse crescente interesse, falta um benchmark rigoroso da capacidade de previsão e confiabilidade dos agentes LLM. Para abordar essa lacuna, apresentamos MIRAI, um novo benchmark projetado para avaliar sistematicamente agentes LLM como previsores temporais no contexto de eventos internacionais. Nosso benchmark apresenta um ambiente agente com ferramentas para acessar um extenso banco de dados de eventos históricos estruturados e artigos de notícias textuais. Refinamos a base de dados de eventos GDELT com limpeza e análise cuidadosas para criar uma série de tarefas de previsão relacional com horizontes de previsão variados, avaliando as habilidades dos agentes LLM desde previsões de curto prazo até previsões de longo prazo. Implementamos APIs adicionais para permitir que os agentes LLM utilizem diferentes ferramentas por meio de uma interface baseada em código. Em resumo, MIRAI avalia abrangentemente as capacidades dos agentes em três dimensões: 1) coletar e integrar autonomamente informações críticas de grandes bancos de dados globais; 2) escrever códigos utilizando APIs e bibliotecas específicas do domínio para uso de ferramentas; e 3) raciocinar conjuntamente sobre conhecimento histórico de formatos diversos e ao longo do tempo para prever com precisão eventos futuros. Por meio de benchmarking abrangente, nosso objetivo é estabelecer um framework confiável para avaliar as capacidades dos agentes LLM na previsão de eventos internacionais, contribuindo assim para o desenvolvimento de modelos mais precisos e confiáveis para análise de relações internacionais.
English
Recent advancements in Large Language Models (LLMs) have empowered LLM agents
to autonomously collect world information, over which to conduct reasoning to
solve complex problems. Given this capability, increasing interests have been
put into employing LLM agents for predicting international events, which can
influence decision-making and shape policy development on an international
scale. Despite such a growing interest, there is a lack of a rigorous benchmark
of LLM agents' forecasting capability and reliability. To address this gap, we
introduce MIRAI, a novel benchmark designed to systematically evaluate LLM
agents as temporal forecasters in the context of international events. Our
benchmark features an agentic environment with tools for accessing an extensive
database of historical, structured events and textual news articles. We refine
the GDELT event database with careful cleaning and parsing to curate a series
of relational prediction tasks with varying forecasting horizons, assessing LLM
agents' abilities from short-term to long-term forecasting. We further
implement APIs to enable LLM agents to utilize different tools via a code-based
interface. In summary, MIRAI comprehensively evaluates the agents' capabilities
in three dimensions: 1) autonomously source and integrate critical information
from large global databases; 2) write codes using domain-specific APIs and
libraries for tool-use; and 3) jointly reason over historical knowledge from
diverse formats and time to accurately predict future events. Through
comprehensive benchmarking, we aim to establish a reliable framework for
assessing the capabilities of LLM agents in forecasting international events,
thereby contributing to the development of more accurate and trustworthy models
for international relation analysis.