AssertBench: Een Benchmark voor het Evalueren van Zelfbevestiging in Grote Taalmodellen

Samenvatting

Recente benchmarks hebben de feitelijke consistentie en retorische robuustheid van Large Language Models (LLMs) onderzocht. Er bestaat echter een kennislacune over hoe directionele framing van feitelijk juiste uitspraken de overeenstemming van het model beïnvloedt, een veelvoorkomend scenario voor LLM-gebruikers. AssertBench pakt dit aan door bewijsondersteunde feiten te bemonsteren uit FEVEROUS, een dataset voor feitenverificatie. Voor elk (door bewijs ondersteund) feit construeren we twee framingprompts: één waarin de gebruiker beweert dat de uitspraak feitelijk correct is, en een andere waarin de gebruiker beweert dat deze onjuist is. Vervolgens registreren we de overeenstemming en redenering van het model. Het gewenste resultaat is dat het model standvastig blijft en een consistente waarheidsevaluatie behoudt over beide framings, in plaats van zijn evaluatie te veranderen om met de gebruiker in te stemmen. AssertBench isoleert framing-geïnduceerde variabiliteit van de onderliggende feitelijke kennis van het model door resultaten te stratificeren op basis van de nauwkeurigheid van het model op dezelfde claims wanneer deze neutraal worden gepresenteerd. Op deze manier beoogt deze benchmark het vermogen van een LLM te meten om "bij zijn standpunt te blijven" wanneer het wordt geconfronteerd met tegenstrijdige gebruikersbeweringen over hetzelfde feit. De volledige broncode is beschikbaar op https://github.com/achowd32/assert-bench.

English

Recent benchmarks have probed factual consistency and rhetorical robustness in Large Language Models (LLMs). However, a knowledge gap exists regarding how directional framing of factually true statements influences model agreement, a common scenario for LLM users. AssertBench addresses this by sampling evidence-supported facts from FEVEROUS, a fact verification dataset. For each (evidence-backed) fact, we construct two framing prompts: one where the user claims the statement is factually correct, and another where the user claims it is incorrect. We then record the model's agreement and reasoning. The desired outcome is that the model asserts itself, maintaining consistent truth evaluation across both framings, rather than switching its evaluation to agree with the user. AssertBench isolates framing-induced variability from the model's underlying factual knowledge by stratifying results based on the model's accuracy on the same claims when presented neutrally. In doing so, this benchmark aims to measure an LLM's ability to "stick to its guns" when presented with contradictory user assertions about the same fact. The complete source code is available at https://github.com/achowd32/assert-bench.

AssertBench: Een Benchmark voor het Evalueren van Zelfbevestiging in Grote Taalmodellen

AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models

Samenvatting

Support