ForeSci: Evaluierung von LLM-Agenten für vorausschauende KI-Forschungsurteile

Zusammenfassung

KI-Forschung erfordert oft Entscheidungen, bevor zukünftige Belege existieren: Welcher Engpass soll angegangen werden, welche Richtung verfolgt werden oder wo ein Projekt positioniert werden soll. Wir stellen ForeSci vor, einen zeitlich kontrollierten Benchmark zur Bewertung, ob LLM-Agenten solche vorausschauenden Forschungsurteile auf der Grundlage historischer Belege treffen können. ForeSci enthält 500 Aufgaben in vier sich schnell entwickelnden KI-Domänen und vier Entscheidungsfamilien. Jede Aufgabe ist mit einer cutoff-konformen Offline-Wissensdatenbank gepaart; Post-Cutoff-Papiere werden während der Generierung verborgen und nur zur Validierung verwendet. Um zufällige Vorhersagen zukünftiger Ereignisse zu vermeiden, werden Aufgaben aus Pre-Cutoff-Taxonomie-Zweigen und Belegsignalen abgeleitet, und die Backbones zur Antwortgenerierung so ausgewählt, dass sie vor den Aufgaben-Cutoffs liegen. Wir bewerten native LLMs, Hybrid RAG und drei Forschungsagent-Anpassungen über vier Backbones hinweg. Die Ergebnisse zeigen, dass eine explizite Organisation von Belegen die Rückverfolgbarkeit und faktische Unterstützung verbessert, die Gewinne jedoch stark von der Entscheidungsfamilie abhängen. Diagnosen offenbaren eine wiederkehrende Evidenz-Entscheidungs-Entkopplung: Agenten können relevante Belege zitieren, während sie das falsche Forschungsobjekt vorhersagen. ForeSci macht vorausschauende KI-Forschungsurteile zu einem kontrollierten Benchmark zur Bewertung von Forschungsagenten als Entscheidungssystemen.

English

AI research often requires decisions before future evidence exists: which bottleneck to attack, which direction to pursue, or where a project should be positioned. We introduce ForeSci, a temporally controlled benchmark for evaluating whether LLM agents can make such forward-looking research judgements from historical evidence. ForeSci contains 500 tasks across four fast-moving AI domains and four decision families. Each task is paired with a cutoff-aligned offline knowledge base; post-cutoff papers are hidden during generation and used only for validation. To avoid random future-event prediction, tasks are derived from pre-cutoff taxonomy branches and evidence signals, and answer-generation backbones are selected to precede the task cutoffs. We evaluate native LLMs, Hybrid RAG, and three research-agent adaptations across four backbones. Results show that explicit evidence organization improves traceability and factual support, but gains depend strongly on the decision family. Diagnostics reveal a recurring evidence-decision decoupling: agents may cite relevant evidence while forecasting the wrong research object. ForeSci turns forward-looking AI research judgement into a controlled benchmark for evaluating research agents as decision-making systems.