OpenBioRQ: Нерешенные вопросы биомедицинских исследований для агентов

Аннотация

Работающая ссылка выглядит как доказательство — но тот факт, что ссылка разрешается (более 99% разрешаются), не означает, что цитируемая статья подтверждает утверждение. Я обнаружил, что современные агентные модели редко фабрикуют цитаты, однако примерно 15,9% ссылок ведут на неверную статью. Существующие бенчмарки упускают этот вид сбоя: когда у вопроса есть фиксированный ключ ответов, модель может воспроизвести ожидаемый источник из этого ключа, а не самостоятельно проверить, что источник подтверждает утверждение. Я представляю \openbiorq{} — основанный на поиске агентный бенчмарк из 12 553 нерешенных вопросов биомедицинских исследований по 12 областям, который рассматривает открытые вопросы как проверку на верность и воздержание. Насколько мне известно, это первый биомедицинский бенчмарк, объединяющий агентный сценарий — где модель должна выполнять несколько вызовов инструментов — с нерешенными вопросами, не имеющими ключа ответов. Открытость проверяется на основе реальных последующих доказательств, а не параметрических знаний модели. Сложность эмпирична: я привязываю её к вопросам, на которые не могут ответить три эталонные модели с открытым весом, а не к субъективным меткам сложности. На этом самом сложном подмножестве отложенные модели того же происхождения, что и якоря сложности, решают лишь ~17%, в то время как три независимых передовых агента (Gemini-3-Pro, Opus-4.7, GPT-5.5) охватывают широкий диапазон от 29% до 60%. Таким образом, бенчмарк является сложным, ненасыщаемым (лучший агент всё ещё оставляет ~33–40% нерешёнными) и различающим по уровням возможностей. Помимо сложности, я наблюдаю агентный коллапс на самых сложных вопросах, когда агенты перестают использовать свои инструменты. Для модели, наиболее склонной к коллапсу, полное блокирование доступа к инструментам почти не меняет её результат — таким образом, инструменты перестают окупаться именно там, где они нужны больше всего. Замороженный контрольный список для каждого вопроса повышает согласованность между оценщиками со Спирмена 0,35 до 0,82.

English

A working citation looks like proof -- but the fact that a link resolves does not mean the cited paper supports the claim. I find that current agentic models rarely fabricate citations (over 99% resolve), yet roughly 15.9% link to the wrong paper. Existing benchmarks miss this failure mode: when a question has a fixed answer key, a model can reproduce the expected source from that key rather than independently verifying that the source supports the claim. I introduce \openbiorq{}, a retrieval-grounded agentic benchmark of 12{,}553 unsolved biomedical research questions across 12 domains that treats open questions as a faithfulness-and-abstention probe. To my knowledge, this is the first biomedical benchmark to combine an agentic setting -- where the model must issue multiple tool calls -- with unsolved questions that have no answer key. Openness is verified against real follow-up evidence rather than a model's parametric knowledge. Difficulty is empirical: I anchor it on questions that three open-weight reference models fail to answer, rather than on subjective hardness labels. On this hardest subset, held-out models from the same lineage as the difficulty anchors solve only ~17%, while three independent frontier agents (Gemini-3-Pro, Opus-4.7, GPT-5.5) span a wide 29-60% range. The benchmark is thus hard, non-saturating (the best agent still leaves ~33-40\% unsolved), and discriminating across capability tiers. Beyond difficulty, I observe agentic collapse on the hardest questions, where agents stop using their tools. For the most collapse-prone model, blocking tool access entirely barely changes its score -- so tools stop paying off exactly where they are needed most. A frozen per-question checklist raises inter-judge agreement from Spearman 0.35 to 0.82.