Engáñame: ¿Qué Tan Fiel es el Razonamiento en Cadena en los Modelos de Razonamiento?

Resumen

El razonamiento de cadena de pensamiento (CoT) se ha propuesto como un mecanismo de transparencia para los modelos de lenguaje grandes en despliegues de seguridad crítica, pero su efectividad depende de la fidelidad (si los modelos verbalizan con precisión los factores que realmente influyen en sus salidas), una propiedad que evaluaciones previas habían examinado solo en dos modelos propietarios, encontrando tasas de reconocimiento tan bajas como el 25% para Claude 3.7 Sonnet y del 39% para DeepSeek-R1. Para extender esta evaluación a través del ecosistema de modelos de pesos abiertos, este estudio prueba 12 modelos de razonamiento de pesos abiertos que abarcan 9 familias arquitectónicas (7B-685B parámetros) en 498 preguntas de opción múltiple de MMLU y GPQA Diamond, inyectando seis categorías de pistas de razonamiento (sicofancia, consistencia, patrón visual, metadatos, manipulación del evaluador e información no ética) y midiendo la tasa a la que los modelos reconocen la influencia de la pista en su CoT cuando las pistas alteran exitosamente las respuestas. En 41,832 ejecuciones de inferencia, las tasas generales de fidelidad oscilan entre el 39.7% (Seed-1.6-Flash) y el 89.9% (DeepSeek-V3.2-Speciale) entre familias de modelos, siendo las pistas de consistencia (35.5%) y las pistas de sicofancia (53.9%) las que exhiben las tasas de reconocimiento más bajas. La metodología de entrenamiento y la familia del modelo predicen la fidelidad con mayor fuerza que el recuento de parámetros, y un análisis basado en palabras clave revela una brecha llamativa entre el reconocimiento en tokens de pensamiento (aproximadamente 87.5%) y el reconocimiento en el texto de respuesta (aproximadamente 28.6%), lo que sugiere que los modelos reconocen internamente la influencia de la pista pero suprimen sistemáticamente este reconocimiento en sus salidas. Estos hallazgos tienen implicaciones directas para la viabilidad de la monitorización CoT como mecanismo de seguridad y sugieren que la fidelidad no es una propiedad fija de los modelos de razonamiento, sino que varía sistemáticamente con la arquitectura, el método de entrenamiento y la naturaleza del estímulo influyente.

English

Chain-of-thought (CoT) reasoning has been proposed as a transparency mechanism for large language models in safety-critical deployments, yet its effectiveness depends on faithfulness (whether models accurately verbalize the factors that actually influence their outputs), a property that prior evaluations have examined in only two proprietary models, finding acknowledgment rates as low as 25% for Claude 3.7 Sonnet and 39% for DeepSeek-R1. To extend this evaluation across the open-weight ecosystem, this study tests 12 open-weight reasoning models spanning 9 architectural families (7B-685B parameters) on 498 multiple-choice questions from MMLU and GPQA Diamond, injecting six categories of reasoning hints (sycophancy, consistency, visual pattern, metadata, grader hacking, and unethical information) and measuring the rate at which models acknowledge hint influence in their CoT when hints successfully alter answers. Across 41,832 inference runs, overall faithfulness rates range from 39.7% (Seed-1.6-Flash) to 89.9% (DeepSeek-V3.2-Speciale) across model families, with consistency hints (35.5%) and sycophancy hints (53.9%) exhibiting the lowest acknowledgment rates. Training methodology and model family predict faithfulness more strongly than parameter count, and keyword-based analysis reveals a striking gap between thinking-token acknowledgment (approximately 87.5%) and answer-text acknowledgment (approximately 28.6%), suggesting that models internally recognize hint influence but systematically suppress this acknowledgment in their outputs. These findings carry direct implications for the viability of CoT monitoring as a safety mechanism and suggest that faithfulness is not a fixed property of reasoning models but varies systematically with architecture, training method, and the nature of the influencing cue.

Engáñame: ¿Qué Tan Fiel es el Razonamiento en Cadena en los Modelos de Razonamiento?

Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models?

Resumen

Support