SoundnessBench: ¿Puede tu científico de IA realmente distinguir las buenas ideas de investigación de las malas?

Resumen

Los agentes autónomos de investigación en IA buscan acelerar el descubrimiento científico automatizando el flujo de trabajo de investigación, desde la generación de hipótesis hasta la revisión por pares. Sin embargo, los puntos de referencia existentes rara vez evalúan un cuello de botella fundamental: si los modelos de lenguaje de gran escala pueden juzgar la viabilidad metodológica de una idea de investigación antes de invertir tiempo y recursos computacionales. Presentamos SoundnessBench, un punto de referencia curado compuesto por 1.099 propuestas de investigación en aprendizaje automático reconstruidas a partir de envíos a ICLR, etiquetadas con subpuntuaciones de solidez de los revisores y auditadas con respecto a los artículos originales. SoundnessBench debe interpretarse como un punto de referencia para la solidez recuperable en la etapa de propuesta, más que como una predicción exacta de los resultados de la revisión completa de un artículo. En 12 modelos de lenguaje de gran escala de vanguardia, encontramos un sesgo de optimismo generalizado: bajo indicaciones estándar, los modelos califican con frecuencia propuestas de baja solidez como sólidas, mientras que las indicaciones agresivas desplazan en gran medida los errores de los falsos positivos a los falsos negativos. Controles adicionales por contaminación del corpus público, frases identificativas del artículo, características superficiales y calidad de la auditoría humana sugieren que este comportamiento no se explica por un único factor de confusión. Nuestros resultados indican que los LLM actuales aún no son fiables como evaluadores autónomos de primera línea para el rigor científico.

English

Autonomous AI research agents aim to accelerate scientific discovery by automating the research pipeline, from hypothesis generation to peer review. However, existing benchmarks rarely test a fundamental bottleneck: whether Large Language Models can judge the methodological viability of a research idea before expending time and computational resources. We introduce SoundnessBench, a curated benchmark of 1,099 machine-learning research proposals reconstructed from ICLR submissions, labeled with reviewer soundness sub-scores, and audited against source papers. SoundnessBench should be interpreted as a benchmark for recoverable proposal-stage soundness rather than exact prediction of full-paper review outcomes. Across 12 frontier LLMs, we find a pervasive optimism bias: under standard prompting, models frequently rate low-soundness proposals as sound, while aggressive prompting largely shifts errors from false positives to false negatives. Additional controls for public-corpus contamination, paper-identifying phrases, surface features, and human audit quality suggest that this behavior is not explained by a single confounder. Our results indicate that current LLMs are not yet reliable as standalone first-gate evaluators for scientific rigor.