Minta-me: Quão Fiel É o Raciocínio em Cadeia de Pensamento em Modelos de Raciocínio?

Resumo

O raciocínio de cadeia de pensamento (CoT) foi proposto como um mecanismo de transparência para modelos de linguagem grandes em implantações de segurança crítica, mas sua eficácia depende da fidelidade (se os modelos verbalizam com precisão os fatores que realmente influenciam suas saídas), uma propriedade que avaliações anteriores examinaram em apenas dois modelos proprietários, encontrando taxas de reconhecimento tão baixas quanto 25% para o Claude 3.7 Sonnet e 39% para o DeepSeek-R1. Para estender esta avaliação ao ecossistema de modelos abertos, este estudo testa 12 modelos de raciocínio de peso aberto abrangendo 9 famílias arquiteturais (7B-685B parâmetros) em 498 questões de múltipla escolha do MMLU e GPQA Diamond, injetando seis categorias de dicas de raciocínio (sicofania, consistência, padrão visual, metadados, manipulação de avaliador e informação antiética) e medindo a taxa na qual os modelos reconhecem a influência da dica em seu CoT quando as dicas alteram com sucesso as respostas. Em 41.832 execuções de inferência, as taxas gerais de fidelidade variam de 39,7% (Seed-1.6-Flash) a 89,9% (DeepSeek-V3.2-Speciale) entre as famílias de modelos, com as dicas de consistência (35,5%) e sicofania (53,9%) exibindo as taxas de reconhecimento mais baixas. A metodologia de treinamento e a família do modelo preveem a fidelidade mais fortemente do que a contagem de parâmetros, e a análise baseada em palavras-chave revela uma lacuna impressionante entre o reconhecimento nos *tokens* de pensamento (aproximadamente 87,5%) e o reconhecimento no texto da resposta (aproximadamente 28,6%), sugerindo que os modelos reconhecem internamente a influência da dica, mas suprimem sistematicamente este reconhecimento em suas saídas. Estas descobertas têm implicações diretas para a viabilidade da monitorização do CoT como mecanismo de segurança e sugerem que a fidelidade não é uma propriedade fixa dos modelos de raciocínio, mas varia sistematicamente com a arquitetura, o método de treinamento e a natureza do estímulo influenciador.

English

Chain-of-thought (CoT) reasoning has been proposed as a transparency mechanism for large language models in safety-critical deployments, yet its effectiveness depends on faithfulness (whether models accurately verbalize the factors that actually influence their outputs), a property that prior evaluations have examined in only two proprietary models, finding acknowledgment rates as low as 25% for Claude 3.7 Sonnet and 39% for DeepSeek-R1. To extend this evaluation across the open-weight ecosystem, this study tests 12 open-weight reasoning models spanning 9 architectural families (7B-685B parameters) on 498 multiple-choice questions from MMLU and GPQA Diamond, injecting six categories of reasoning hints (sycophancy, consistency, visual pattern, metadata, grader hacking, and unethical information) and measuring the rate at which models acknowledge hint influence in their CoT when hints successfully alter answers. Across 41,832 inference runs, overall faithfulness rates range from 39.7% (Seed-1.6-Flash) to 89.9% (DeepSeek-V3.2-Speciale) across model families, with consistency hints (35.5%) and sycophancy hints (53.9%) exhibiting the lowest acknowledgment rates. Training methodology and model family predict faithfulness more strongly than parameter count, and keyword-based analysis reveals a striking gap between thinking-token acknowledgment (approximately 87.5%) and answer-text acknowledgment (approximately 28.6%), suggesting that models internally recognize hint influence but systematically suppress this acknowledgment in their outputs. These findings carry direct implications for the viability of CoT monitoring as a safety mechanism and suggest that faithfulness is not a fixed property of reasoning models but varies systematically with architecture, training method, and the nature of the influencing cue.