ChatPaper.aiChatPaper

FutureX: Un Benchmark Avanzato in Tempo Reale per Agenti LLM nella Predizione del Futuro

FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction

August 16, 2025
Autori: Zhiyuan Zeng, Jiashuo Liu, Siyuan Chen, Tianci He, Yali Liao, Jinpeng Wang, Zaiyuan Wang, Yang Yang, Lingyue Yin, Mingren Yin, Zhenwei Zhu, Tianle Cai, Zehui Chen, Jiecao Chen, Yantao Du, Xiang Gao, Jiacheng Guo, Liang Hu, Jianpeng Jiao, Xiangsheng Li, Jingkai Liu, Shuang Ni, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xin Zhou, Jose Blanchet, Xipeng Qiu, Mengdi Wang, Wenhao Huang
cs.AI

Abstract

La previsione futura è un compito complesso per gli agenti LLM, che richiede un elevato livello di pensiero analitico, raccolta di informazioni, comprensione contestuale e decision-making in condizioni di incertezza. Gli agenti non solo devono raccogliere e interpretare grandi quantità di informazioni dinamiche, ma anche integrare fonti di dati diverse, valutare le incertezze e adattare le previsioni in base alle tendenze emergenti, proprio come fanno gli esperti umani in campi come la politica, l'economia e la finanza. Nonostante la sua importanza, non esiste un benchmark su larga scala per valutare gli agenti nella previsione futura, principalmente a causa delle sfide legate alla gestione degli aggiornamenti in tempo reale e al recupero di risposte tempestive e accurate. Per affrontare questo problema, introduciamo FutureX, un benchmark dinamico e in tempo reale specificamente progettato per gli agenti LLM che svolgono compiti di previsione futura. FutureX è il benchmark più grande e diversificato per la previsione futura, che supporta aggiornamenti giornalieri in tempo reale ed elimina la contaminazione dei dati attraverso una pipeline automatizzata per la raccolta di domande e risposte. Valutiamo 25 modelli LLM/agenti, inclusi quelli con capacità di ragionamento, ricerca e integrazione di strumenti esterni come l'agente di ricerca open-source Deep Research e i modelli di ricerca chiusi Deep Research. Questa valutazione completa analizza il ragionamento adattivo e le prestazioni degli agenti in ambienti dinamici. Inoltre, forniamo analisi approfondite delle modalità di fallimento e delle insidie delle prestazioni degli agenti in compiti orientati al futuro, inclusa la vulnerabilità alle pagine web false e la validità temporale. Il nostro obiettivo è stabilire uno standard di valutazione dinamico e privo di contaminazione che promuova lo sviluppo di agenti LLM in grado di performare al livello degli analisti umani professionali nel ragionamento complesso e nel pensiero predittivo.
English
Future prediction is a complex task for LLM agents, requiring a high level of analytical thinking, information gathering, contextual understanding, and decision-making under uncertainty. Agents must not only gather and interpret vast amounts of dynamic information but also integrate diverse data sources, weigh uncertainties, and adapt predictions based on emerging trends, just as human experts do in fields like politics, economics, and finance. Despite its importance, no large-scale benchmark exists for evaluating agents on future prediction, largely due to challenges in handling real-time updates and retrieving timely, accurate answers. To address this, we introduce FutureX, a dynamic and live evaluation benchmark specifically designed for LLM agents performing future prediction tasks. FutureX is the largest and most diverse live benchmark for future prediction, supporting real-time daily updates and eliminating data contamination through an automated pipeline for question gathering and answer collection. We evaluate 25 LLM/agent models, including those with reasoning, search capabilities, and integration of external tools such as the open-source Deep Research Agent and closed-source Deep Research models. This comprehensive evaluation assesses agents' adaptive reasoning and performance in dynamic environments. Additionally, we provide in-depth analyses of agents' failure modes and performance pitfalls in future-oriented tasks, including the vulnerability to fake web pages and the temporal validity. Our goal is to establish a dynamic, contamination-free evaluation standard that drives the development of LLM agents capable of performing at the level of professional human analysts in complex reasoning and predictive thinking.
PDF695August 21, 2025