AssertBench: Een Benchmark voor het Evalueren van Zelfbevestiging in Grote Taalmodellen
AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models
June 8, 2025
Auteurs: Jaeho Lee, Atharv Chowdhary
cs.AI
Samenvatting
Recente benchmarks hebben de feitelijke consistentie en retorische robuustheid van Large Language Models (LLMs) onderzocht. Er bestaat echter een kennislacune over hoe directionele framing van feitelijk juiste uitspraken de overeenstemming van het model beïnvloedt, een veelvoorkomend scenario voor LLM-gebruikers. AssertBench pakt dit aan door bewijsondersteunde feiten te bemonsteren uit FEVEROUS, een dataset voor feitenverificatie. Voor elk (door bewijs ondersteund) feit construeren we twee framingprompts: één waarin de gebruiker beweert dat de uitspraak feitelijk correct is, en een andere waarin de gebruiker beweert dat deze onjuist is. Vervolgens registreren we de overeenstemming en redenering van het model. Het gewenste resultaat is dat het model standvastig blijft en een consistente waarheidsevaluatie behoudt over beide framings, in plaats van zijn evaluatie te veranderen om met de gebruiker in te stemmen. AssertBench isoleert framing-geïnduceerde variabiliteit van de onderliggende feitelijke kennis van het model door resultaten te stratificeren op basis van de nauwkeurigheid van het model op dezelfde claims wanneer deze neutraal worden gepresenteerd. Op deze manier beoogt deze benchmark het vermogen van een LLM te meten om "bij zijn standpunt te blijven" wanneer het wordt geconfronteerd met tegenstrijdige gebruikersbeweringen over hetzelfde feit. De volledige broncode is beschikbaar op https://github.com/achowd32/assert-bench.
English
Recent benchmarks have probed factual consistency and rhetorical robustness
in Large Language Models (LLMs). However, a knowledge gap exists regarding how
directional framing of factually true statements influences model agreement, a
common scenario for LLM users. AssertBench addresses this by sampling
evidence-supported facts from FEVEROUS, a fact verification dataset. For each
(evidence-backed) fact, we construct two framing prompts: one where the user
claims the statement is factually correct, and another where the user claims it
is incorrect. We then record the model's agreement and reasoning. The desired
outcome is that the model asserts itself, maintaining consistent truth
evaluation across both framings, rather than switching its evaluation to agree
with the user. AssertBench isolates framing-induced variability from the
model's underlying factual knowledge by stratifying results based on the
model's accuracy on the same claims when presented neutrally. In doing so, this
benchmark aims to measure an LLM's ability to "stick to its guns" when
presented with contradictory user assertions about the same fact. The complete
source code is available at https://github.com/achowd32/assert-bench.