Кто меняет мнение? Собственные и межмодельные контраргументы выявляют нестабильность ответов в LLM

Аннотация

Стандартные бенчмарки точности предназначены для оценки того, насколько точно большие языковые модели (БЯМ) приближаются к правильным ответам, но не подходят для проверки, придерживаются ли модели верного ответа, когда он оспаривается правдоподобным контраргументом. Мы предлагаем контролируемый протокол для оценки стабильности ответа: после того как модель дает правильный ответ на вопрос с множественным выбором, мы оспариваем ее ответ связным аргументом в пользу неверного варианта и измеряем, меняет ли модель решение. Данная установка: a) изолирует аргументативное содержание от явного социального давления; b) варьирует длину аргумента, самоатрибуцию и источник из другой модели. На семи передовых моделях и 57 предметах MMLU доля изменений ответа варьируется от 17,5% до 97,3%, что выявляет значительные различия в стабильности, не отражаемые одними лишь метриками точности. Мы обнаружили, что самоатрибуция последовательно увеличивает долю изменений (в среднем на +7,1 п.п., до +18,7 п.п.). Кроме того, объединение аргументов за неверные ответы от разных моделей и выбор наиболее эффективного для каждого вопроса дает более сильные состязательные вызовы, чем опора на какой-либо единый источник-модель. Мы также создаем MaxFlip — курируемый набор вызовов, усиливающий изменения до +23,6 п.п. по сравнению со стандартными самогенерируемыми вызовами. Мы публикуем протокол, записи вызовов и MaxFlip для поддержки оценки стабильности наряду со стандартными бенчмарками точности. Материалы доступны по адресу https://github.com/nafisenik/WhoFlips и https://hf.co/datasets/nafisehNik/WhoFlips.

English

Standard accuracy benchmarks are designed to test how closely large language models (LLMs) approach correct answers, but are not suitable for testing whether LLMs stick with a correct answer when that answer is challenged by a plausible counter-argument. We introduce a controlled protocol for evaluating answer stability: after a model answers a multiple-choice question correctly, we challenge the model's answer with a coherent argument for an incorrect option and measure whether the model flips. The setup a) isolates argumentative content from overt social pressure and b) varies argument length, self-attribution, and cross-model source. Across seven frontier models and 57 MMLU subjects, flip rates range from 17.5% to 97.3%, revealing large differences in stability that are not captured by accuracy metrics alone. We find that self-attribution consistently increases flip rates (mean +7.1pp, up to +18.7pp). Also, pooling wrong-answer arguments across models and selecting the most effective one per question yields stronger adversarial challenges than relying on any single source model. We further construct MaxFlip, a curated challenge set that amplifies flips by up to +23.6pp over standard self-generated challenges. We release the protocol, challenge records, and MaxFlip to support stability evaluation alongside standard accuracy benchmarks. Materials are available at https://github.com/nafisenik/WhoFlips and https://hf.co/datasets/nafisehNik/WhoFlips.