SoundnessBench : Votre chercheur en IA sait-il vraiment distinguer les bonnes idées de recherche des mauvaises ?

Résumé

Les agents autonomes de recherche en IA visent à accélérer la découverte scientifique en automatisant le pipeline de recherche, de la génération d'hypothèses à l'examen par les pairs. Cependant, les benchmarks existants testent rarement un goulot d'étranglement fondamental : la capacité des grands modèles de langage à juger de la viabilité méthodologique d'une idée de recherche avant d'y consacrer du temps et des ressources computationnelles. Nous présentons SoundnessBench, un benchmark organisé de 1 099 propositions de recherche en apprentissage automatique reconstruites à partir de soumissions à ICLR, annotées avec les sous-scores de solidité des relecteurs et vérifiées par rapport aux articles sources. SoundnessBench doit être interprété comme un benchmark pour la solidité au stade de la proposition, récupérable, plutôt que pour une prédiction exacte des résultats de l'examen complet des articles. Sur 12 LLMs de pointe, nous observons un biais d'optimisme omniprésent : avec un amorçage standard, les modèles évaluent fréquemment comme solides des propositions de faible solidité, tandis qu'un amorçage agressif déplace en grande partie les erreurs des faux positifs vers les faux négatifs. Des contrôles supplémentaires pour la contamination par corpus publics, les phrases identifiant les articles, les caractéristiques superficielles et la qualité de la vérification humaine suggèrent que ce comportement ne s'explique pas par un seul facteur de confusion. Nos résultats indiquent que les LLMs actuels ne sont pas encore fiables en tant qu'évaluateurs autonomes de premier niveau pour la rigueur scientifique.

English

Autonomous AI research agents aim to accelerate scientific discovery by automating the research pipeline, from hypothesis generation to peer review. However, existing benchmarks rarely test a fundamental bottleneck: whether Large Language Models can judge the methodological viability of a research idea before expending time and computational resources. We introduce SoundnessBench, a curated benchmark of 1,099 machine-learning research proposals reconstructed from ICLR submissions, labeled with reviewer soundness sub-scores, and audited against source papers. SoundnessBench should be interpreted as a benchmark for recoverable proposal-stage soundness rather than exact prediction of full-paper review outcomes. Across 12 frontier LLMs, we find a pervasive optimism bias: under standard prompting, models frequently rate low-soundness proposals as sound, while aggressive prompting largely shifts errors from false positives to false negatives. Additional controls for public-corpus contamination, paper-identifying phrases, surface features, and human audit quality suggest that this behavior is not explained by a single confounder. Our results indicate that current LLMs are not yet reliable as standalone first-gate evaluators for scientific rigor.