SoundnessBench: Способен ли ваш ИИ-ученый действительно отличать хорошие исследовательские идеи от плохих?

Аннотация

Автономные исследовательские агенты на базе ИИ направлены на ускорение научных открытий путем автоматизации исследовательского конвейера — от генерации гипотез до рецензирования. Однако существующие бенчмарки редко проверяют фундаментальное узкое место: способность больших языковых моделей оценивать методологическую состоятельность исследовательской идеи до затрат времени и вычислительных ресурсов. Мы представляем SoundnessBench — курируемый набор данных из 1099 предложений по машинному обучению, реконструированных на основе материалов конференции ICLR, размеченных с учетом оценок рецензентов за методологическую обоснованность и выверенных по исходным статьям. SoundnessBench следует интерпретировать как бенчмарк для оценки воспроизводимой обоснованности на этапе предложения, а не для точного предсказания результатов полного рецензирования статей. На 12 передовых LLM мы обнаруживаем повсеместную склонность к оптимизму: при стандартной формулировке запроса модели часто оценивают предложения с низкой обоснованностью как состоятельные, тогда как агрессивная формулировка в основном смещает ошибки от ложноположительных к ложноотрицательным. Дополнительные контрольные проверки на загрязнение публичными корпусами, идентифицирующие статью фразы, поверхностные признаки и качество человеческой проверки показывают, что данное поведение не объясняется единичным конфaундером. Наши результаты указывают на то, что современные LLM пока не могут надежно выступать в роли самостоятельных оценщиков первого уровня для проверки научной строгости.

English

Autonomous AI research agents aim to accelerate scientific discovery by automating the research pipeline, from hypothesis generation to peer review. However, existing benchmarks rarely test a fundamental bottleneck: whether Large Language Models can judge the methodological viability of a research idea before expending time and computational resources. We introduce SoundnessBench, a curated benchmark of 1,099 machine-learning research proposals reconstructed from ICLR submissions, labeled with reviewer soundness sub-scores, and audited against source papers. SoundnessBench should be interpreted as a benchmark for recoverable proposal-stage soundness rather than exact prediction of full-paper review outcomes. Across 12 frontier LLMs, we find a pervasive optimism bias: under standard prompting, models frequently rate low-soundness proposals as sound, while aggressive prompting largely shifts errors from false positives to false negatives. Additional controls for public-corpus contamination, paper-identifying phrases, surface features, and human audit quality suggest that this behavior is not explained by a single confounder. Our results indicate that current LLMs are not yet reliable as standalone first-gate evaluators for scientific rigor.