ForeSci: Avaliando Agentes LLM para Julgamento Prospectivo em Pesquisa de IA

Resumo

A pesquisa em IA frequentemente exige decisões antes que evidências futuras estejam disponíveis: qual gargalo atacar, qual direção perseguir ou onde um projeto deve ser posicionado. Apresentamos o ForeSci, um benchmark temporalmente controlado para avaliar se agentes LLM podem fazer tais julgamentos prospectivos de pesquisa com base em evidências históricas. O ForeSci contém 500 tarefas em quatro domínios de IA em rápida evolução e quatro famílias de decisão. Cada tarefa é emparelhada com uma base de conhecimento offline alinhada a um ponto de corte; artigos posteriores ao corte são ocultados durante a geração e usados apenas para validação. Para evitar a previsão aleatória de eventos futuros, as tarefas são derivadas de ramos taxonômicos e sinais de evidência anteriores ao corte, e as bases de resposta são selecionadas para preceder os cortes das tarefas. Avaliamos LLMs nativos, RAG Híbrido e três adaptações de agentes de pesquisa em quatro bases. Os resultados mostram que a organização explícita de evidências melhora a rastreabilidade e o suporte factual, mas os ganhos dependem fortemente da família de decisão. Diagnósticos revelam um desacoplamento recorrente entre evidência e decisão: agentes podem citar evidências relevantes enquanto preveem o objeto de pesquisa errado. O ForeSci transforma o julgamento prospectivo de pesquisa em IA em um benchmark controlado para avaliar agentes de pesquisa como sistemas de tomada de decisão.

English

AI research often requires decisions before future evidence exists: which bottleneck to attack, which direction to pursue, or where a project should be positioned. We introduce ForeSci, a temporally controlled benchmark for evaluating whether LLM agents can make such forward-looking research judgements from historical evidence. ForeSci contains 500 tasks across four fast-moving AI domains and four decision families. Each task is paired with a cutoff-aligned offline knowledge base; post-cutoff papers are hidden during generation and used only for validation. To avoid random future-event prediction, tasks are derived from pre-cutoff taxonomy branches and evidence signals, and answer-generation backbones are selected to precede the task cutoffs. We evaluate native LLMs, Hybrid RAG, and three research-agent adaptations across four backbones. Results show that explicit evidence organization improves traceability and factual support, but gains depend strongly on the decision family. Diagnostics reveal a recurring evidence-decision decoupling: agents may cite relevant evidence while forecasting the wrong research object. ForeSci turns forward-looking AI research judgement into a controlled benchmark for evaluating research agents as decision-making systems.