MIRAI: イベント予測のためのLLMエージェントの評価
MIRAI: Evaluating LLM Agents for Event Forecasting
July 1, 2024
著者: Chenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang
cs.AI
要旨
大規模言語モデル(LLMs)の最近の進歩により、LLMエージェントは自律的に世界の情報を収集し、それに基づいて推論を行うことで複雑な問題を解決する能力を獲得しました。この能力を背景に、国際的な意思決定や政策形成に影響を与える可能性がある国際イベントの予測にLLMエージェントを活用することへの関心が高まっています。しかし、このような関心が高まる一方で、LLMエージェントの予測能力と信頼性を厳密に評価するためのベンチマークが不足しています。このギャップを埋めるため、我々はMIRAIという新しいベンチマークを導入しました。MIRAIは、国際イベントの文脈においてLLMエージェントを時間的予測者として体系的に評価するために設計されています。このベンチマークは、広範な歴史的構造化イベントやテキストニュース記事にアクセスするためのツールを備えたエージェント環境を特徴としています。我々はGDELTイベントデータベースを慎重にクリーニングおよび解析し、短期から長期にわたる予測タスクを精選しました。さらに、LLMエージェントがコードベースのインターフェースを介してさまざまなツールを利用できるようにするためのAPIを実装しました。要約すると、MIRAIはエージェントの能力を以下の3つの次元で包括的に評価します:1) 大規模なグローバルデータベースから重要な情報を自律的に収集し統合する能力、2) ドメイン固有のAPIやライブラリを使用してツールを活用するためのコードを記述する能力、3) 多様な形式や時間にわたる歴史的知識を統合し、将来のイベントを正確に予測する能力。包括的なベンチマークを通じて、我々は国際イベントの予測におけるLLMエージェントの能力を評価する信頼性の高いフレームワークを確立し、国際関係分析のためのより正確で信頼性の高いモデルの開発に貢献することを目指しています。
English
Recent advancements in Large Language Models (LLMs) have empowered LLM agents
to autonomously collect world information, over which to conduct reasoning to
solve complex problems. Given this capability, increasing interests have been
put into employing LLM agents for predicting international events, which can
influence decision-making and shape policy development on an international
scale. Despite such a growing interest, there is a lack of a rigorous benchmark
of LLM agents' forecasting capability and reliability. To address this gap, we
introduce MIRAI, a novel benchmark designed to systematically evaluate LLM
agents as temporal forecasters in the context of international events. Our
benchmark features an agentic environment with tools for accessing an extensive
database of historical, structured events and textual news articles. We refine
the GDELT event database with careful cleaning and parsing to curate a series
of relational prediction tasks with varying forecasting horizons, assessing LLM
agents' abilities from short-term to long-term forecasting. We further
implement APIs to enable LLM agents to utilize different tools via a code-based
interface. In summary, MIRAI comprehensively evaluates the agents' capabilities
in three dimensions: 1) autonomously source and integrate critical information
from large global databases; 2) write codes using domain-specific APIs and
libraries for tool-use; and 3) jointly reason over historical knowledge from
diverse formats and time to accurately predict future events. Through
comprehensive benchmarking, we aim to establish a reliable framework for
assessing the capabilities of LLM agents in forecasting international events,
thereby contributing to the development of more accurate and trustworthy models
for international relation analysis.Summary
AI-Generated Summary