SoundnessBench: Kann Ihr KI-Wissenschaftler wirklich gute Forschungsideen von schlechten unterscheiden?

Zusammenfassung

Autonome KI-Forschungsagenten zielen darauf ab, wissenschaftliche Entdeckungen zu beschleunigen, indem sie die Forschungspipeline von der Hypothesengenerierung bis zum Peer-Review automatisieren. Existierende Benchmarks testen jedoch selten einen grundlegenden Engpass: ob große Sprachmodelle (Large Language Models) die methodische Tragfähigkeit einer Forschungsidee beurteilen können, bevor Zeit und Rechenressourcen aufgewendet werden. Wir führen SoundnessBench ein, einen kuratierten Benchmark mit 1.099 aus ICLR-Einreichungen rekonstruierten Machine-Learning-Forschungsvorschlägen, die mit Bewertungen der methodischen Solidität (Soundness) durch Gutachter versehen und gegen die Originalpublikationen geprüft wurden. SoundnessBench sollte als Benchmark für die rekonstruierbare Solidität auf Vorschlagsebene verstanden werden und nicht als exakte Vorhersage von Begutachtungsergebnissen vollständiger Arbeiten. Bei 12 modernen LLMs stellen wir eine durchgängige Optimismusverzerrung fest: Unter Standard-Prompting bewerten die Modelle häufig Vorschläge mit geringer Solidität als solide, während aggressives Prompting die Fehler größtenteils von falsch positiven zu falsch negativen Ergebnissen verschiebt. Zusätzliche Kontrollen hinsichtlich Kontamination durch öffentliche Korpora, papierspezifische Kennzeichnungsphrasen, Oberflächenmerkmale und der Qualität menschlicher Überprüfungen legen nahe, dass dieses Verhalten nicht durch einen einzelnen Störfaktor erklärt wird. Unsere Ergebnisse deuten darauf hin, dass aktuelle LLMs noch nicht als zuverlässige eigenständige Bewerter der ersten Stufe für wissenschaftliche Rigorosität einsetzbar sind.

English

Autonomous AI research agents aim to accelerate scientific discovery by automating the research pipeline, from hypothesis generation to peer review. However, existing benchmarks rarely test a fundamental bottleneck: whether Large Language Models can judge the methodological viability of a research idea before expending time and computational resources. We introduce SoundnessBench, a curated benchmark of 1,099 machine-learning research proposals reconstructed from ICLR submissions, labeled with reviewer soundness sub-scores, and audited against source papers. SoundnessBench should be interpreted as a benchmark for recoverable proposal-stage soundness rather than exact prediction of full-paper review outcomes. Across 12 frontier LLMs, we find a pervasive optimism bias: under standard prompting, models frequently rate low-soundness proposals as sound, while aggressive prompting largely shifts errors from false positives to false negatives. Additional controls for public-corpus contamination, paper-identifying phrases, surface features, and human audit quality suggest that this behavior is not explained by a single confounder. Our results indicate that current LLMs are not yet reliable as standalone first-gate evaluators for scientific rigor.