AssertBench : Un Benchmark pour l'Évaluation de l'Auto-Assertion dans les Grands Modèles de Langage
AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models
June 8, 2025
Auteurs: Jaeho Lee, Atharv Chowdhary
cs.AI
Résumé
Les benchmarks récents ont exploré la cohérence factuelle et la robustesse rhétorique des modèles de langage de grande taille (LLMs). Cependant, une lacune de connaissances persiste concernant la manière dont le cadrage directionnel d'énoncés factuellement vrais influence l'accord du modèle, un scénario courant pour les utilisateurs de LLMs. AssertBench aborde cette question en échantillonnant des faits étayés par des preuves provenant de FEVEROUS, un ensemble de données de vérification des faits. Pour chaque fait (soutenu par des preuves), nous construisons deux invites de cadrage : une où l'utilisateur affirme que l'énoncé est factuellement correct, et une autre où l'utilisateur prétend qu'il est incorrect. Nous enregistrons ensuite l'accord et le raisonnement du modèle. Le résultat souhaité est que le modèle affirme sa position, maintenant une évaluation cohérente de la vérité à travers les deux cadrages, plutôt que de changer son évaluation pour s'aligner sur l'utilisateur. AssertBench isole la variabilité induite par le cadrage de la connaissance factuelle sous-jacente du modèle en stratifiant les résultats en fonction de la précision du modèle sur les mêmes affirmations lorsqu'elles sont présentées de manière neutre. Ce faisant, ce benchmark vise à mesurer la capacité d'un LLM à « tenir bon » face à des assertions contradictoires de l'utilisateur concernant le même fait. Le code source complet est disponible à l'adresse https://github.com/achowd32/assert-bench.
English
Recent benchmarks have probed factual consistency and rhetorical robustness
in Large Language Models (LLMs). However, a knowledge gap exists regarding how
directional framing of factually true statements influences model agreement, a
common scenario for LLM users. AssertBench addresses this by sampling
evidence-supported facts from FEVEROUS, a fact verification dataset. For each
(evidence-backed) fact, we construct two framing prompts: one where the user
claims the statement is factually correct, and another where the user claims it
is incorrect. We then record the model's agreement and reasoning. The desired
outcome is that the model asserts itself, maintaining consistent truth
evaluation across both framings, rather than switching its evaluation to agree
with the user. AssertBench isolates framing-induced variability from the
model's underlying factual knowledge by stratifying results based on the
model's accuracy on the same claims when presented neutrally. In doing so, this
benchmark aims to measure an LLM's ability to "stick to its guns" when
presented with contradictory user assertions about the same fact. The complete
source code is available at https://github.com/achowd32/assert-bench.