SoundnessBench: Kan uw AI-wetenschapper werkelijk goede onderzoeksideeën van slechte onderscheiden?

Samenvatting

Autonome AI-onderzoeksagenten streven ernaar wetenschappelijke ontdekkingen te versnellen door de onderzoekspijplijn te automatiseren, van hypothesegeneratie tot peerreview. Bestaande benchmarks testen echter zelden een fundamentele bottleneck: of grote taalmodellen de methodologische haalbaarheid van een onderzoeksidee kunnen beoordelen voordat er tijd en rekenkracht wordt geïnvesteerd. Wij introduceren SoundnessBench, een samengestelde benchmark van 1.099 machine learning-onderzoeksvoorstellen die zijn gereconstrueerd uit ICLR-submissies, voorzien van beoordelaarscores voor methodologische degelijkheid en gecontroleerd tegen de oorspronkelijke papers. SoundnessBench moet worden geïnterpreteerd als een benchmark voor de herleidbare degelijkheid in de voorstelfase, niet als een exacte voorspelling van de volledige paperreviewresultaten. Bij 12 geavanceerde grote taalmodellen vinden we een wijdverbreide optimisme-bias: onder standaard prompting beoordelen modellen voorstellen met een lage degelijkheid vaak als degelijk, terwijl agressief prompting de fouten grotendeels verschuift van vals-positieven naar vals-negatieven. Extra controles op contaminatie uit openbare corpora, paper-identificerende zinsdelen, oppervlaktekenmerken en de kwaliteit van menselijke audits suggereren dat dit gedrag niet wordt verklaard door één enkele verstorende factor. Onze resultaten geven aan dat de huidige grote taalmodellen nog niet betrouwbaar zijn als standalone eerste filterevaluatoren voor wetenschappelijke strengheid.

English

Autonomous AI research agents aim to accelerate scientific discovery by automating the research pipeline, from hypothesis generation to peer review. However, existing benchmarks rarely test a fundamental bottleneck: whether Large Language Models can judge the methodological viability of a research idea before expending time and computational resources. We introduce SoundnessBench, a curated benchmark of 1,099 machine-learning research proposals reconstructed from ICLR submissions, labeled with reviewer soundness sub-scores, and audited against source papers. SoundnessBench should be interpreted as a benchmark for recoverable proposal-stage soundness rather than exact prediction of full-paper review outcomes. Across 12 frontier LLMs, we find a pervasive optimism bias: under standard prompting, models frequently rate low-soundness proposals as sound, while aggressive prompting largely shifts errors from false positives to false negatives. Additional controls for public-corpus contamination, paper-identifying phrases, surface features, and human audit quality suggest that this behavior is not explained by a single confounder. Our results indicate that current LLMs are not yet reliable as standalone first-gate evaluators for scientific rigor.