AssertBench: Ein Benchmark zur Bewertung von Selbstbehauptung in großen Sprachmodellen

papers.abstract

Aktuelle Benchmarks haben die faktische Konsistenz und rhetorische Robustheit von Large Language Models (LLMs) untersucht. Es besteht jedoch eine Wissenslücke darüber, wie die gerichtete Rahmung von faktisch wahren Aussagen die Zustimmung des Modells beeinflusst, ein häufiges Szenario für LLM-Nutzer. AssertBench adressiert dies, indem es evidenzgestützte Fakten aus FEVEROUS, einem Datensatz zur Faktenüberprüfung, entnimmt. Für jeden (evidenzbasierten) Fakt konstruieren wir zwei Rahmungsaufforderungen: eine, bei der der Nutzer behauptet, die Aussage sei faktisch korrekt, und eine andere, bei der der Nutzer behauptet, sie sei inkorrekt. Anschließend erfassen wir die Zustimmung und Begründung des Modells. Das gewünschte Ergebnis ist, dass das Modell selbstbewusst bleibt und eine konsistente Wahrheitsbewertung über beide Rahmungen hinweg beibehält, anstatt seine Bewertung zu ändern, um dem Nutzer zuzustimmen. AssertBench isoliert die durch Rahmung induzierte Variabilität vom zugrunde liegenden Faktenwissen des Modells, indem es die Ergebnisse basierend auf der Genauigkeit des Modells bei denselben Behauptungen bei neutraler Präsentation stratifiziert. Auf diese Weise zielt dieser Benchmark darauf ab, die Fähigkeit eines LLMs zu messen, „bei seiner Meinung zu bleiben“, wenn es mit widersprüchlichen Nutzerbehauptungen über denselben Fakt konfrontiert wird. Der vollständige Quellcode ist unter https://github.com/achowd32/assert-bench verfügbar.

English

Recent benchmarks have probed factual consistency and rhetorical robustness in Large Language Models (LLMs). However, a knowledge gap exists regarding how directional framing of factually true statements influences model agreement, a common scenario for LLM users. AssertBench addresses this by sampling evidence-supported facts from FEVEROUS, a fact verification dataset. For each (evidence-backed) fact, we construct two framing prompts: one where the user claims the statement is factually correct, and another where the user claims it is incorrect. We then record the model's agreement and reasoning. The desired outcome is that the model asserts itself, maintaining consistent truth evaluation across both framings, rather than switching its evaluation to agree with the user. AssertBench isolates framing-induced variability from the model's underlying factual knowledge by stratifying results based on the model's accuracy on the same claims when presented neutrally. In doing so, this benchmark aims to measure an LLM's ability to "stick to its guns" when presented with contradictory user assertions about the same fact. The complete source code is available at https://github.com/achowd32/assert-bench.

AssertBench: Ein Benchmark zur Bewertung von Selbstbehauptung in großen Sprachmodellen

AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models

papers.abstract

Support