SoundnessBench: Será que o seu Cientista de IA realmente consegue distinguir boas ideias de pesquisa das ruins?

Resumo

Agentes de pesquisa autônomos baseados em IA visam acelerar a descoberta científica automatizando o pipeline de pesquisa, desde a geração de hipóteses até a revisão por pares. No entanto, os benchmarks existentes raramente testam um gargalo fundamental: se os Grandes Modelos de Linguagem conseguem julgar a viabilidade metodológica de uma ideia de pesquisa antes de despender tempo e recursos computacionais. Apresentamos o SoundnessBench, um benchmark curado de 1.099 propostas de pesquisa em aprendizado de máquina reconstruídas a partir de submissões do ICLR, rotuladas com notas de solidez de revisores e auditadas em relação aos artigos originais. O SoundnessBench deve ser interpretado como um benchmark para solidez em estágio de proposta recuperável, e não como uma predição exata dos resultados da revisão completa do artigo. Em 12 LLMs de ponta, encontramos um viés de otimismo generalizado: sob instrução padrão, os modelos frequentemente avaliam propostas de baixa solidez como sólidas, enquanto instruções agressivas transferem em grande parte os erros de falsos positivos para falsos negativos. Controles adicionais para contaminação de corpus público, frases identificadoras de artigos, características superficiais e qualidade da auditoria humana sugerem que esse comportamento não é explicado por um único fator de confusão. Nossos resultados indicam que os LLMs atuais ainda não são confiáveis como avaliadores autônomos de primeira triagem para rigor científico.

English

Autonomous AI research agents aim to accelerate scientific discovery by automating the research pipeline, from hypothesis generation to peer review. However, existing benchmarks rarely test a fundamental bottleneck: whether Large Language Models can judge the methodological viability of a research idea before expending time and computational resources. We introduce SoundnessBench, a curated benchmark of 1,099 machine-learning research proposals reconstructed from ICLR submissions, labeled with reviewer soundness sub-scores, and audited against source papers. SoundnessBench should be interpreted as a benchmark for recoverable proposal-stage soundness rather than exact prediction of full-paper review outcomes. Across 12 frontier LLMs, we find a pervasive optimism bias: under standard prompting, models frequently rate low-soundness proposals as sound, while aggressive prompting largely shifts errors from false positives to false negatives. Additional controls for public-corpus contamination, paper-identifying phrases, surface features, and human audit quality suggest that this behavior is not explained by a single confounder. Our results indicate that current LLMs are not yet reliable as standalone first-gate evaluators for scientific rigor.