Qui change d'avis ? Les contre-arguments auto- et inter-modèles révèlent l'instabilité des réponses dans les LLMs.

Résumé

Les benchmarks standard de précision sont conçus pour évaluer à quel point les grands modèles de langage (LLMs) se rapprochent des réponses correctes, mais ils ne conviennent pas pour tester si les LLMs maintiennent une réponse correcte lorsque celle-ci est contestée par un contre-argument plausible. Nous introduisons un protocole contrôlé pour évaluer la stabilité des réponses : après qu'un modèle a répondu correctement à une question à choix multiples, nous contestons sa réponse avec un argument cohérent en faveur d'une option incorrecte et mesurons si le modèle change d'avis. Ce dispositif a) isole le contenu argumentatif de toute pression sociale explicite et b) fait varier la longueur des arguments, l'auto-attribution et la source inter-modèle. Sur sept modèles de pointe et 57 sujets MMLU, les taux de changement s'échelonnent de 17,5 % à 97,3 %, révélant des différences importantes de stabilité qui ne sont pas capturées par les seules métriques de précision. Nous constatons que l'auto-attribution augmente systématiquement les taux de changement (moyenne +7,1 points de pourcentage, jusqu'à +18,7 pp). De plus, la mise en commun des arguments de réponses incorrectes entre modèles et la sélection du plus efficace par question produit des défis adversariaux plus forts que le recours à un seul modèle source. Nous construisons également MaxFlip, un ensemble de défis optimisé qui amplifie les changements jusqu'à +23,6 pp par rapport aux défis auto-générés standards. Nous publions le protocole, les enregistrements des défis et MaxFlip pour soutenir l'évaluation de la stabilité en complément des benchmarks de précision standard. Les documents sont disponibles à l'adresse https://github.com/nafisenik/WhoFlips et https://hf.co/datasets/nafisehNik/WhoFlips.

English

Standard accuracy benchmarks are designed to test how closely large language models (LLMs) approach correct answers, but are not suitable for testing whether LLMs stick with a correct answer when that answer is challenged by a plausible counter-argument. We introduce a controlled protocol for evaluating answer stability: after a model answers a multiple-choice question correctly, we challenge the model's answer with a coherent argument for an incorrect option and measure whether the model flips. The setup a) isolates argumentative content from overt social pressure and b) varies argument length, self-attribution, and cross-model source. Across seven frontier models and 57 MMLU subjects, flip rates range from 17.5% to 97.3%, revealing large differences in stability that are not captured by accuracy metrics alone. We find that self-attribution consistently increases flip rates (mean +7.1pp, up to +18.7pp). Also, pooling wrong-answer arguments across models and selecting the most effective one per question yields stronger adversarial challenges than relying on any single source model. We further construct MaxFlip, a curated challenge set that amplifies flips by up to +23.6pp over standard self-generated challenges. We release the protocol, challenge records, and MaxFlip to support stability evaluation alongside standard accuracy benchmarks. Materials are available at https://github.com/nafisenik/WhoFlips and https://hf.co/datasets/nafisehNik/WhoFlips.