AssertBench : Un Benchmark pour l'Évaluation de l'Auto-Assertion dans les Grands Modèles de Langage

papers.abstract

Les benchmarks récents ont exploré la cohérence factuelle et la robustesse rhétorique des modèles de langage de grande taille (LLMs). Cependant, une lacune de connaissances persiste concernant la manière dont le cadrage directionnel d'énoncés factuellement vrais influence l'accord du modèle, un scénario courant pour les utilisateurs de LLMs. AssertBench aborde cette question en échantillonnant des faits étayés par des preuves provenant de FEVEROUS, un ensemble de données de vérification des faits. Pour chaque fait (soutenu par des preuves), nous construisons deux invites de cadrage : une où l'utilisateur affirme que l'énoncé est factuellement correct, et une autre où l'utilisateur prétend qu'il est incorrect. Nous enregistrons ensuite l'accord et le raisonnement du modèle. Le résultat souhaité est que le modèle affirme sa position, maintenant une évaluation cohérente de la vérité à travers les deux cadrages, plutôt que de changer son évaluation pour s'aligner sur l'utilisateur. AssertBench isole la variabilité induite par le cadrage de la connaissance factuelle sous-jacente du modèle en stratifiant les résultats en fonction de la précision du modèle sur les mêmes affirmations lorsqu'elles sont présentées de manière neutre. Ce faisant, ce benchmark vise à mesurer la capacité d'un LLM à « tenir bon » face à des assertions contradictoires de l'utilisateur concernant le même fait. Le code source complet est disponible à l'adresse https://github.com/achowd32/assert-bench.

English

Recent benchmarks have probed factual consistency and rhetorical robustness in Large Language Models (LLMs). However, a knowledge gap exists regarding how directional framing of factually true statements influences model agreement, a common scenario for LLM users. AssertBench addresses this by sampling evidence-supported facts from FEVEROUS, a fact verification dataset. For each (evidence-backed) fact, we construct two framing prompts: one where the user claims the statement is factually correct, and another where the user claims it is incorrect. We then record the model's agreement and reasoning. The desired outcome is that the model asserts itself, maintaining consistent truth evaluation across both framings, rather than switching its evaluation to agree with the user. AssertBench isolates framing-induced variability from the model's underlying factual knowledge by stratifying results based on the model's accuracy on the same claims when presented neutrally. In doing so, this benchmark aims to measure an LLM's ability to "stick to its guns" when presented with contradictory user assertions about the same fact. The complete source code is available at https://github.com/achowd32/assert-bench.

AssertBench : Un Benchmark pour l'Évaluation de l'Auto-Assertion dans les Grands Modèles de Langage

AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models

papers.abstract

Support