OpenBioRQ: Onopgeloste biomedische onderzoeksvragen voor agenten

Samenvatting

Een werkende verwijzing lijkt op bewijs – maar het feit dat een link werkt, betekent niet dat het geciteerde artikel de bewering ondersteunt. Ik constateer dat huidige agentische modellen zelden citaten verzinnen (meer dan 99% werkt), maar ongeveer 15,9% verwijst naar het verkeerde artikel. Bestaande benchmarks missen deze faalmodus: wanneer een vraag een vaste antwoordsleutel heeft, kan een model de verwachte bron uit die sleutel reproduceren in plaats van onafhankelijk te verifiëren dat de bron de bewering ondersteunt. Ik introduceer \openbiorq{}, een retrieval-gebaseerde agentische benchmark van 12.553 onopgeloste biomedische onderzoeksvragen in 12 domeinen die open vragen behandelt als een trouw- en onthoudingssonde. Voor zover ik weet, is dit de eerste biomedische benchmark die een agentische setting – waarin het model meerdere toolaanroepen moet doen – combineert met onopgeloste vragen zonder antwoordsleutel. Openheid wordt geverifieerd aan de hand van echt vervolgonderzoek in plaats van de parametrische kennis van een model. Moeilijkheid is empirisch: ik veranker deze op vragen die drie referentiemodellen met open gewichten niet kunnen beantwoorden, in plaats van op subjectieve moeilijkheidslabels. Op deze moeilijkste subset lossen modellen uit dezelfde lijn als de moeilijkheidsankers slechts ~17% op, terwijl drie onafhankelijke grensverleggende agenten (Gemini-3-Pro, Opus-4.7, GPT-5.5) een breed bereik van 29-60% bestrijken. De benchmark is dus moeilijk, niet-verzadigend (de beste agent laat nog ~33-40% onopgelost) en onderscheidend tussen vaardigheidsniveaus. Naast moeilijkheid observeer ik agentische ineenstorting bij de moeilijkste vragen, waarbij agenten stoppen met het gebruik van hun tools. Voor het model dat het meest vatbaar is voor ineenstorting, verandert het volledig blokkeren van tooltoegang de score nauwelijks – dus tools stoppen met renderen precies waar ze het meest nodig zijn. Een bevroren checklist per vraag verhoogt de overeenstemming tussen beoordelaars van Spearman 0,35 naar 0,82.

English

A working citation looks like proof -- but the fact that a link resolves does not mean the cited paper supports the claim. I find that current agentic models rarely fabricate citations (over 99% resolve), yet roughly 15.9% link to the wrong paper. Existing benchmarks miss this failure mode: when a question has a fixed answer key, a model can reproduce the expected source from that key rather than independently verifying that the source supports the claim. I introduce \openbiorq{}, a retrieval-grounded agentic benchmark of 12{,}553 unsolved biomedical research questions across 12 domains that treats open questions as a faithfulness-and-abstention probe. To my knowledge, this is the first biomedical benchmark to combine an agentic setting -- where the model must issue multiple tool calls -- with unsolved questions that have no answer key. Openness is verified against real follow-up evidence rather than a model's parametric knowledge. Difficulty is empirical: I anchor it on questions that three open-weight reference models fail to answer, rather than on subjective hardness labels. On this hardest subset, held-out models from the same lineage as the difficulty anchors solve only ~17%, while three independent frontier agents (Gemini-3-Pro, Opus-4.7, GPT-5.5) span a wide 29-60% range. The benchmark is thus hard, non-saturating (the best agent still leaves ~33-40\% unsolved), and discriminating across capability tiers. Beyond difficulty, I observe agentic collapse on the hardest questions, where agents stop using their tools. For the most collapse-prone model, blocking tool access entirely barely changes its score -- so tools stop paying off exactly where they are needed most. A frozen per-question checklist raises inter-judge agreement from Spearman 0.35 to 0.82.