ChatPaper.aiChatPaper

Los modelos de lenguaje no siempre dicen lo que piensan: Explicaciones poco fieles en el prompting de cadena de pensamiento.

Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting

May 7, 2023
Autores: Miles Turpin, Julian Michael, Ethan Perez, Samuel R. Bowman
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) pueden alcanzar un rendimiento sólido en muchas tareas al producir razonamientos paso a paso antes de dar una salida final, un enfoque conocido como razonamiento en cadena de pensamiento (CoT, por sus siglas en inglés). Es tentador interpretar estas explicaciones CoT como el proceso que sigue el LLM para resolver una tarea. Sin embargo, encontramos que las explicaciones CoT pueden tergiversar sistemáticamente la verdadera razón detrás de la predicción del modelo. Demostramos que las explicaciones CoT pueden verse fuertemente influenciadas al agregar características sesgadas a las entradas del modelo —por ejemplo, reordenando las opciones de respuesta múltiple en un prompt de pocos ejemplos para que la respuesta sea siempre "(A)"—, algo que los modelos no mencionan sistemáticamente en sus explicaciones. Cuando sesgamos los modelos hacia respuestas incorrectas, estos frecuentemente generan explicaciones CoT que respaldan dichas respuestas. Esto provoca una caída en la precisión de hasta un 36% en un conjunto de 13 tareas de BIG-Bench Hard, al probar con GPT-3.5 de OpenAI y Claude 1.0 de Anthropic. En una tarea de sesgo social, las explicaciones del modelo justifican respuestas alineadas con estereotipos sin mencionar la influencia de estos sesgos sociales. Nuestros hallazgos indican que las explicaciones CoT pueden ser plausibles pero engañosas, lo que aumenta el riesgo de confiar en los LLMs sin garantizar su seguridad. Aunque el CoT es prometedor para la explicabilidad, nuestros resultados resaltan la necesidad de esfuerzos específicos para evaluar y mejorar la fidelidad de las explicaciones.
English
Large Language Models (LLMs) can achieve strong performance on many tasks by producing step-by-step reasoning before giving a final output, often referred to as chain-of-thought reasoning (CoT). It is tempting to interpret these CoT explanations as the LLM's process for solving a task. However, we find that CoT explanations can systematically misrepresent the true reason for a model's prediction. We demonstrate that CoT explanations can be heavily influenced by adding biasing features to model inputs -- e.g., by reordering the multiple-choice options in a few-shot prompt to make the answer always "(A)" -- which models systematically fail to mention in their explanations. When we bias models toward incorrect answers, they frequently generate CoT explanations supporting those answers. This causes accuracy to drop by as much as 36% on a suite of 13 tasks from BIG-Bench Hard, when testing with GPT-3.5 from OpenAI and Claude 1.0 from Anthropic. On a social-bias task, model explanations justify giving answers in line with stereotypes without mentioning the influence of these social biases. Our findings indicate that CoT explanations can be plausible yet misleading, which risks increasing our trust in LLMs without guaranteeing their safety. CoT is promising for explainability, but our results highlight the need for targeted efforts to evaluate and improve explanation faithfulness.
PDF10December 15, 2024