Quem Muda? Contra-argumentos Próprios e Entre Modelos Revelam Instabilidade nas Respostas em LLMs

Resumo

Os benchmarks de precisão padrão são projetados para testar o quão próximos os grandes modelos de linguagem (LLMs) chegam das respostas corretas, mas não são adequados para testar se os LLMs mantêm uma resposta correta quando essa resposta é desafiada por um contra-argumento plausível. Introduzimos um protocolo controlado para avaliar a estabilidade das respostas: após um modelo responder corretamente a uma pergunta de múltipla escolha, desafiamos a resposta do modelo com um argumento coerente para uma opção incorreta e medimos se o modelo muda de ideia. A configuração a) isola o conteúdo argumentativo da pressão social explícita e b) varia o comprimento do argumento, a auto-atribuição e a fonte entre modelos. Através de sete modelos de fronteira e 57 disciplinas do MMLU, as taxas de mudança (flip rates) variam de 17,5% a 97,3%, revelando grandes diferenças na estabilidade que não são capturadas apenas pelas métricas de precisão. Descobrimos que a auto-atribuição aumenta consistentemente as taxas de mudança (média de +7,1 pp, até +18,7 pp). Além disso, combinar argumentos de respostas incorretas de vários modelos e selecionar o mais eficaz por pergunta produz desafios adversariais mais fortes do que depender de um único modelo fonte. Construímos ainda o MaxFlip, um conjunto de desafios curados que amplifica as mudanças em até +23,6 pp em relação aos desafios autogerados padrão. Disponibilizamos o protocolo, os registros dos desafios e o MaxFlip para apoiar a avaliação da estabilidade juntamente com os benchmarks de precisão padrão. Os materiais estão disponíveis em https://github.com/nafisenik/WhoFlips e https://hf.co/datasets/nafisehNik/WhoFlips.

English

Standard accuracy benchmarks are designed to test how closely large language models (LLMs) approach correct answers, but are not suitable for testing whether LLMs stick with a correct answer when that answer is challenged by a plausible counter-argument. We introduce a controlled protocol for evaluating answer stability: after a model answers a multiple-choice question correctly, we challenge the model's answer with a coherent argument for an incorrect option and measure whether the model flips. The setup a) isolates argumentative content from overt social pressure and b) varies argument length, self-attribution, and cross-model source. Across seven frontier models and 57 MMLU subjects, flip rates range from 17.5% to 97.3%, revealing large differences in stability that are not captured by accuracy metrics alone. We find that self-attribution consistently increases flip rates (mean +7.1pp, up to +18.7pp). Also, pooling wrong-answer arguments across models and selecting the most effective one per question yields stronger adversarial challenges than relying on any single source model. We further construct MaxFlip, a curated challenge set that amplifies flips by up to +23.6pp over standard self-generated challenges. We release the protocol, challenge records, and MaxFlip to support stability evaluation alongside standard accuracy benchmarks. Materials are available at https://github.com/nafisenik/WhoFlips and https://hf.co/datasets/nafisehNik/WhoFlips.