ForeSci: Evaluación de Agentes LLM para el Juicio Prospectivo en Investigación de IA

Resumen

La investigación en IA a menudo requiere tomar decisiones antes de que exista evidencia futura: qué cuello de botella abordar, qué dirección seguir o dónde posicionar un proyecto. Presentamos ForeSci, un punto de referencia temporalmente controlado para evaluar si los agentes de LLM pueden realizar este tipo de juicios prospectivos de investigación a partir de evidencia histórica. ForeSci contiene 500 tareas en cuatro dominios de IA de rápido avance y cuatro familias de decisiones. Cada tarea se empareja con una base de conocimiento offline alineada con un corte temporal; los artículos posteriores al corte se ocultan durante la generación y solo se utilizan para validación. Para evitar la predicción aleatoria de eventos futuros, las tareas se derivan de ramas taxonómicas y señales de evidencia anteriores al corte, y los backbones de generación de respuestas se seleccionan para anteceder a dichos cortes. Evaluamos LLMs nativos, RAG híbrido y tres adaptaciones de agentes de investigación en cuatro backbones. Los resultados muestran que la organización explícita de la evidencia mejora la trazabilidad y el respaldo factual, pero las ganancias dependen fuertemente de la familia de decisiones. Los diagnósticos revelan un desacoplamiento recurrente entre evidencia y decisión: los agentes pueden citar evidencia relevante mientras predicen el objeto de investigación incorrecto. ForeSci convierte los juicios prospectivos de investigación en IA en un punto de referencia controlado para evaluar agentes de investigación como sistemas de toma de decisiones.

English

AI research often requires decisions before future evidence exists: which bottleneck to attack, which direction to pursue, or where a project should be positioned. We introduce ForeSci, a temporally controlled benchmark for evaluating whether LLM agents can make such forward-looking research judgements from historical evidence. ForeSci contains 500 tasks across four fast-moving AI domains and four decision families. Each task is paired with a cutoff-aligned offline knowledge base; post-cutoff papers are hidden during generation and used only for validation. To avoid random future-event prediction, tasks are derived from pre-cutoff taxonomy branches and evidence signals, and answer-generation backbones are selected to precede the task cutoffs. We evaluate native LLMs, Hybrid RAG, and three research-agent adaptations across four backbones. Results show that explicit evidence organization improves traceability and factual support, but gains depend strongly on the decision family. Diagnostics reveal a recurring evidence-decision decoupling: agents may cite relevant evidence while forecasting the wrong research object. ForeSci turns forward-looking AI research judgement into a controlled benchmark for evaluating research agents as decision-making systems.