ForeSci: Evaluatie van LLM-agenten voor toekomstgericht AI-onderzoeksoordeel

Samenvatting

AI-onderzoek vereist vaak beslissingen voordat toekomstig bewijs beschikbaar is: welk knelpunt moet worden aangepakt, welke richting moet worden gevolgd, of waar een project moet worden gepositioneerd. Wij introduceren ForeSci, een temporeel gecontroleerde benchmark om te evalueren of LLM-agenten dergelijke vooruitziende onderzoeksbeoordelingen kunnen maken op basis van historisch bewijs. ForeSci bevat 500 taken verdeeld over vier snel evoluerende AI-domeinen en vier beslissingsfamilies. Elke taak is gekoppeld aan een op de afsluitdatum afgestemde offline kennisbank; artikelen na de afsluitdatum worden tijdens de generatie verborgen en alleen gebruikt voor validatie. Om willekeurige voorspelling van toekomstige gebeurtenissen te voorkomen, zijn taken afgeleid van taxonomische takken en bewijssignalen van vóór de afsluitdatum, en worden de backbones voor het genereren van antwoorden geselecteerd die aan de taakafsluitdata voorafgaan. We evalueren native LLM's, Hybride RAG en drie aanpassingen van onderzoeksagenten over vier backbones. Resultaten tonen aan dat expliciete bewijsorganisatie de traceerbaarheid en feitelijke onderbouwing verbetert, maar dat de winst sterk afhangt van de beslissingsfamilie. Diagnostiek onthult een terugkerende ontkoppeling van bewijs en beslissing: agenten kunnen relevant bewijs aanhalen terwijl ze het verkeerde onderzoeksobject voorspellen. ForeSci verandert vooruitziende AI-onderzoeksbeoordeling in een gecontroleerde benchmark voor het evalueren van onderzoeksagenten als besluitvormingssystemen.

English

AI research often requires decisions before future evidence exists: which bottleneck to attack, which direction to pursue, or where a project should be positioned. We introduce ForeSci, a temporally controlled benchmark for evaluating whether LLM agents can make such forward-looking research judgements from historical evidence. ForeSci contains 500 tasks across four fast-moving AI domains and four decision families. Each task is paired with a cutoff-aligned offline knowledge base; post-cutoff papers are hidden during generation and used only for validation. To avoid random future-event prediction, tasks are derived from pre-cutoff taxonomy branches and evidence signals, and answer-generation backbones are selected to precede the task cutoffs. We evaluate native LLMs, Hybrid RAG, and three research-agent adaptations across four backbones. Results show that explicit evidence organization improves traceability and factual support, but gains depend strongly on the decision family. Diagnostics reveal a recurring evidence-decision decoupling: agents may cite relevant evidence while forecasting the wrong research object. ForeSci turns forward-looking AI research judgement into a controlled benchmark for evaluating research agents as decision-making systems.