AssertBench: Ein Benchmark zur Bewertung von Selbstbehauptung in großen Sprachmodellen
AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models
June 8, 2025
Autoren: Jaeho Lee, Atharv Chowdhary
cs.AI
Zusammenfassung
Aktuelle Benchmarks haben die faktische Konsistenz und rhetorische Robustheit von Large Language Models (LLMs) untersucht. Es besteht jedoch eine Wissenslücke darüber, wie die gerichtete Rahmung von faktisch wahren Aussagen die Zustimmung des Modells beeinflusst, ein häufiges Szenario für LLM-Nutzer. AssertBench adressiert dies, indem es evidenzgestützte Fakten aus FEVEROUS, einem Datensatz zur Faktenüberprüfung, entnimmt. Für jeden (evidenzbasierten) Fakt konstruieren wir zwei Rahmungsaufforderungen: eine, bei der der Nutzer behauptet, die Aussage sei faktisch korrekt, und eine andere, bei der der Nutzer behauptet, sie sei inkorrekt. Anschließend erfassen wir die Zustimmung und Begründung des Modells. Das gewünschte Ergebnis ist, dass das Modell selbstbewusst bleibt und eine konsistente Wahrheitsbewertung über beide Rahmungen hinweg beibehält, anstatt seine Bewertung zu ändern, um dem Nutzer zuzustimmen. AssertBench isoliert die durch Rahmung induzierte Variabilität vom zugrunde liegenden Faktenwissen des Modells, indem es die Ergebnisse basierend auf der Genauigkeit des Modells bei denselben Behauptungen bei neutraler Präsentation stratifiziert. Auf diese Weise zielt dieser Benchmark darauf ab, die Fähigkeit eines LLMs zu messen, „bei seiner Meinung zu bleiben“, wenn es mit widersprüchlichen Nutzerbehauptungen über denselben Fakt konfrontiert wird. Der vollständige Quellcode ist unter https://github.com/achowd32/assert-bench verfügbar.
English
Recent benchmarks have probed factual consistency and rhetorical robustness
in Large Language Models (LLMs). However, a knowledge gap exists regarding how
directional framing of factually true statements influences model agreement, a
common scenario for LLM users. AssertBench addresses this by sampling
evidence-supported facts from FEVEROUS, a fact verification dataset. For each
(evidence-backed) fact, we construct two framing prompts: one where the user
claims the statement is factually correct, and another where the user claims it
is incorrect. We then record the model's agreement and reasoning. The desired
outcome is that the model asserts itself, maintaining consistent truth
evaluation across both framings, rather than switching its evaluation to agree
with the user. AssertBench isolates framing-induced variability from the
model's underlying factual knowledge by stratifying results based on the
model's accuracy on the same claims when presented neutrally. In doing so, this
benchmark aims to measure an LLM's ability to "stick to its guns" when
presented with contradictory user assertions about the same fact. The complete
source code is available at https://github.com/achowd32/assert-bench.