ForeSci : Évaluation des agents LLM pour le jugement prospectif en recherche en IA

Résumé

La recherche en IA nécessite souvent de prendre des décisions avant que des preuves futures n'existent : quel goulot d'étranglement attaquer, quelle direction poursuivre, ou où positionner un projet. Nous présentons ForeSci, un benchmark temporellement contrôlé pour évaluer si les agents LLM peuvent formuler de tels jugements de recherche prospectifs à partir de preuves historiques. ForeSci contient 500 tâches couvrant quatre domaines de l'IA en évolution rapide et quatre familles de décisions. Chaque tâche est associée à une base de connaissances hors ligne alignée sur une date limite ; les articles postérieurs à cette date sont masqués lors de la génération et utilisés uniquement pour la validation. Afin d'éviter une prédiction aléatoire d'événements futurs, les tâches sont dérivées de branches taxonomiques et de signaux de preuve antérieurs à la date limite, et les backbones de génération de réponses sont sélectionnés pour précéder cette date. Nous évaluons les LLM natifs, le RAG hybride et trois adaptations d'agents de recherche sur quatre backbones. Les résultats montrent qu'une organisation explicite des preuves améliore la traçabilité et le soutien factuel, mais que les gains dépendent fortement de la famille de décisions. Les diagnostics révèlent un découplage récurrent entre preuves et décisions : les agents peuvent citer des preuves pertinentes tout en prédisant le mauvais objet de recherche. ForeSci transforme le jugement prospectif en recherche en IA en un benchmark contrôlé pour évaluer les agents de recherche en tant que systèmes de prise de décision.

English

AI research often requires decisions before future evidence exists: which bottleneck to attack, which direction to pursue, or where a project should be positioned. We introduce ForeSci, a temporally controlled benchmark for evaluating whether LLM agents can make such forward-looking research judgements from historical evidence. ForeSci contains 500 tasks across four fast-moving AI domains and four decision families. Each task is paired with a cutoff-aligned offline knowledge base; post-cutoff papers are hidden during generation and used only for validation. To avoid random future-event prediction, tasks are derived from pre-cutoff taxonomy branches and evidence signals, and answer-generation backbones are selected to precede the task cutoffs. We evaluate native LLMs, Hybrid RAG, and three research-agent adaptations across four backbones. Results show that explicit evidence organization improves traceability and factual support, but gains depend strongly on the decision family. Diagnostics reveal a recurring evidence-decision decoupling: agents may cite relevant evidence while forecasting the wrong research object. ForeSci turns forward-looking AI research judgement into a controlled benchmark for evaluating research agents as decision-making systems.