MIRAI: Оценка агентов LLM для прогнозирования событий
MIRAI: Evaluating LLM Agents for Event Forecasting
July 1, 2024
Авторы: Chenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang
cs.AI
Аннотация
Недавние достижения в области крупных языковых моделей (LLM) дали возможность агентам LLM автономно собирать информацию о мире, на основе которой проводится рассуждение для решения сложных задач. Учитывая эту способность, возрос интерес к использованию агентов LLM для прогнозирования международных событий, которые могут влиять на принятие решений и формирование политики на международном уровне. Несмотря на такой растущий интерес, отсутствует строгий критерий оценки способности и надежности прогнозирования агентов LLM. Для заполнения этой пробела мы представляем MIRAI, новый критерий, разработанный для систематической оценки агентов LLM в качестве временных прогностиков в контексте международных событий. Наш критерий представляет собой агентную среду с инструментами для доступа к обширной базе данных исторических структурированных событий и текстовых новостных статей. Мы улучшаем базу данных событий GDELT, тщательно очищая и разбирая ее, чтобы создать серию задач по прогнозированию отношений с различными горизонтами прогнозирования, оценивая способности агентов LLM от краткосрочного до долгосрочного прогнозирования. Мы также реализуем API для возможности использования агентами LLM различных инструментов через интерфейс на основе кода. В заключение, MIRAI всесторонне оценивает способности агентов в трех измерениях: 1) автономное сбор и интеграция критической информации из обширных глобальных баз данных; 2) написание кодов с использованием API и библиотек для использования инструментов; и 3) совместное рассуждение на основе исторических знаний различных форматов и времени для точного прогнозирования будущих событий. Через всестороннюю оценку мы стремимся создать надежную основу для оценки способностей агентов LLM в прогнозировании международных событий, тем самым способствуя развитию более точных и надежных моделей для анализа международных отношений.
English
Recent advancements in Large Language Models (LLMs) have empowered LLM agents
to autonomously collect world information, over which to conduct reasoning to
solve complex problems. Given this capability, increasing interests have been
put into employing LLM agents for predicting international events, which can
influence decision-making and shape policy development on an international
scale. Despite such a growing interest, there is a lack of a rigorous benchmark
of LLM agents' forecasting capability and reliability. To address this gap, we
introduce MIRAI, a novel benchmark designed to systematically evaluate LLM
agents as temporal forecasters in the context of international events. Our
benchmark features an agentic environment with tools for accessing an extensive
database of historical, structured events and textual news articles. We refine
the GDELT event database with careful cleaning and parsing to curate a series
of relational prediction tasks with varying forecasting horizons, assessing LLM
agents' abilities from short-term to long-term forecasting. We further
implement APIs to enable LLM agents to utilize different tools via a code-based
interface. In summary, MIRAI comprehensively evaluates the agents' capabilities
in three dimensions: 1) autonomously source and integrate critical information
from large global databases; 2) write codes using domain-specific APIs and
libraries for tool-use; and 3) jointly reason over historical knowledge from
diverse formats and time to accurately predict future events. Through
comprehensive benchmarking, we aim to establish a reliable framework for
assessing the capabilities of LLM agents in forecasting international events,
thereby contributing to the development of more accurate and trustworthy models
for international relation analysis.Summary
AI-Generated Summary