Wer ändert seine Meinung? Eigene und modellübergreifende Gegenargumente offenbaren Antwortinstabilität in LLMs

Zusammenfassung

Standard-Genauigkeits-Benchmarks sind darauf ausgelegt, zu testen, wie nahe große Sprachmodelle (LLMs) an korrekte Antworten herankommen, eignen sich jedoch nicht dafür, zu prüfen, ob LLMs bei einer korrekten Antwort bleiben, wenn diese durch ein plausibles Gegenargument in Frage gestellt wird. Wir führen ein kontrolliertes Protokoll zur Bewertung der Antwortstabilität ein: Nachdem ein Modell eine Multiple-Choice-Frage korrekt beantwortet hat, konfrontieren wir das Modell mit einem kohärenten Argument für eine falsche Option und messen, ob das Modell umschwenkt. Das Setup (a) isoliert argumentativen Inhalt von offenem sozialem Druck und (b) variiert Argumentlänge, Selbstzuschreibung und modellübergreifende Quelle. Über sieben führende Modelle und 57 MMLU-Fachgebiete hinweg reichen die Wechselraten von 17,5 % bis 97,3 %, was große Unterschiede in der Stabilität offenbart, die allein durch Genauigkeitsmetriken nicht erfasst werden. Wir stellen fest, dass Selbstzuschreibung die Wechselraten konsistent erhöht (im Mittel +7,1 Prozentpunkte, bis zu +18,7 Prozentpunkte). Zudem ergibt die Zusammenführung von Argumenten für falsche Antworten über Modelle hinweg und die Auswahl des jeweils wirksamsten Arguments pro Frage stärkere adversariale Herausforderungen als die Abhängigkeit von einem einzelnen Quellmodell. Weiterhin erstellen wir MaxFlip, einen kuratierten Herausforderungssatz, der Wechselraten um bis zu +23,6 Prozentpunkte im Vergleich zu standardmäßigen selbstgenerierten Herausforderungen verstärkt. Wir veröffentlichen das Protokoll, die Herausforderungsaufzeichnungen und MaxFlip, um die Stabilitätsbewertung neben den üblichen Genauigkeits-Benchmarks zu unterstützen. Die Materialien sind verfügbar unter https://github.com/nafisenik/WhoFlips und https://hf.co/datasets/nafisehNik/WhoFlips.

English

Standard accuracy benchmarks are designed to test how closely large language models (LLMs) approach correct answers, but are not suitable for testing whether LLMs stick with a correct answer when that answer is challenged by a plausible counter-argument. We introduce a controlled protocol for evaluating answer stability: after a model answers a multiple-choice question correctly, we challenge the model's answer with a coherent argument for an incorrect option and measure whether the model flips. The setup a) isolates argumentative content from overt social pressure and b) varies argument length, self-attribution, and cross-model source. Across seven frontier models and 57 MMLU subjects, flip rates range from 17.5% to 97.3%, revealing large differences in stability that are not captured by accuracy metrics alone. We find that self-attribution consistently increases flip rates (mean +7.1pp, up to +18.7pp). Also, pooling wrong-answer arguments across models and selecting the most effective one per question yields stronger adversarial challenges than relying on any single source model. We further construct MaxFlip, a curated challenge set that amplifies flips by up to +23.6pp over standard self-generated challenges. We release the protocol, challenge records, and MaxFlip to support stability evaluation alongside standard accuracy benchmarks. Materials are available at https://github.com/nafisenik/WhoFlips and https://hf.co/datasets/nafisehNik/WhoFlips.