¿Quién cambia? Contraargumentos intra e inter modelo revelan inestabilidad de las respuestas en los LLMs

Resumen

Los puntos de referencia estándar de precisión están diseñados para evaluar qué tan cerca se acercan los modelos de lenguaje de gran tamaño (LLMs) a las respuestas correctas, pero no son adecuados para probar si los LLMs se mantienen firmes en una respuesta correcta cuando esta es desafiada por un contraargumento plausible. Introducimos un protocolo controlado para evaluar la estabilidad de la respuesta: después de que un modelo responde correctamente una pregunta de opción múltiple, desafiamos la respuesta del modelo con un argumento coherente a favor de una opción incorrecta y medimos si el modelo cambia su respuesta. El diseño a) aísla el contenido argumentativo de la presión social manifiesta y b) varía la longitud del argumento, la autoatribución y la fuente entre modelos. En siete modelos de frontera y 57 materias de MMLU, las tasas de cambio de respuesta oscilan entre el 17,5% y el 97,3%, lo que revela grandes diferencias en estabilidad que no son capturadas únicamente por las métricas de precisión. Encontramos que la autoatribución incrementa consistentemente las tasas de cambio (media +7,1 pp, hasta +18,7 pp). Además, agrupar argumentos de respuesta incorrecta de distintos modelos y seleccionar el más efectivo por pregunta produce desafíos adversariales más fuertes que depender de un único modelo fuente. Asimismo, construimos MaxFlip, un conjunto de desafíos curado que amplifica los cambios de respuesta hasta en +23,6 pp respecto a los desafíos generados internamente estándar. Publicamos el protocolo, los registros de desafíos y MaxFlip para apoyar la evaluación de la estabilidad junto con los puntos de referencia estándar de precisión. Los materiales están disponibles en https://github.com/nafisenik/WhoFlips y https://hf.co/datasets/nafisehNik/WhoFlips.

English

Standard accuracy benchmarks are designed to test how closely large language models (LLMs) approach correct answers, but are not suitable for testing whether LLMs stick with a correct answer when that answer is challenged by a plausible counter-argument. We introduce a controlled protocol for evaluating answer stability: after a model answers a multiple-choice question correctly, we challenge the model's answer with a coherent argument for an incorrect option and measure whether the model flips. The setup a) isolates argumentative content from overt social pressure and b) varies argument length, self-attribution, and cross-model source. Across seven frontier models and 57 MMLU subjects, flip rates range from 17.5% to 97.3%, revealing large differences in stability that are not captured by accuracy metrics alone. We find that self-attribution consistently increases flip rates (mean +7.1pp, up to +18.7pp). Also, pooling wrong-answer arguments across models and selecting the most effective one per question yields stronger adversarial challenges than relying on any single source model. We further construct MaxFlip, a curated challenge set that amplifies flips by up to +23.6pp over standard self-generated challenges. We release the protocol, challenge records, and MaxFlip to support stability evaluation alongside standard accuracy benchmarks. Materials are available at https://github.com/nafisenik/WhoFlips and https://hf.co/datasets/nafisehNik/WhoFlips.