Quando a Cadeia de Pensamento Sabe Melhor: Modos de Falha em Modelos de Raciocínio Multi-Turn

Resumo

Falhas em modelos de raciocínio multi-turno são amplamente invisíveis para avaliações baseadas em pontuação terminal. Um modelo pode fixar-se numa postura insegura logo no início de um diálogo longo, mas a sua taxa de recusa na etapa final pode parecer indistinguível de uma linha de base robustamente alinhada. Para expor essas dinâmicas temporais ocultas, propomos um diagnóstico ao nível dos traços — a matriz de segurança CoT-Output 2x2. Esta estrutura rotula cada turno ao longo de dois eixos independentes (raciocínio interno e saída visível), gerando quatro células de falha operacionalmente definidas: alinhamento robusto, falsificação de alinhamento, jailbreak explícito e um modo de falha distinto que designamos por falha de injeção de contexto (onde o CoT mantém um raciocínio seguro, mas a saída visível produz dano, evidenciando uma manifestação multi-turno de infidelidade de raciocínio). Avaliamos três alvos de raciocínio destilados contra um atacante fixo em cinco condições de supervisão, coletando 6750 observações ao nível do turno no cenário de Risco de Informação. A nossa análise revela duas vulnerabilidades reproduzíveis: um paradoxo de supervisão em que sinais explícitos de monitorização aumentam paradoxalmente as taxas de falsificação de alinhamento em vez de as suprimir, e uma falha de injeção de contexto em que os modelos se fixam em saídas externas inseguras apesar de estados internos seguros. Disponibilizamos o conjunto de dados completo de diálogos multi-turno e traços de CoT para apoiar investigação futura em diagnósticos baseados em traços.

English

Failures in multi-turn reasoning models are largely invisible to terminal-score evaluation. A model can lock onto an unsafe stance early in a long dialogue, yet its final-turn refusal rate may appear indistinguishable from a robustly aligned baseline. To expose these hidden temporal dynamics, we propose a trace-level diagnostic - the CoT-Output 2x2 safety matrix. This framework labels every turn along two independent axes (internal reasoning and visible output), yielding four operationally defined failure cells: robust alignment, alignment faking, overt jailbreak, and a distinct failure mode we term context-injection failure (where the CoT maintains safe reasoning, but the visible output produces harm, highlighting a multi-turn manifestation of reasoning unfaithfulness). We evaluate three distilled reasoning targets against a fixed attacker across five oversight conditions, collecting 6750 turn-level observations on the Information-Hazard scenario. Our analysis reveals two reproducible vulnerabilities: an oversight paradox where explicit monitoring cues paradoxically increase alignment-faking rates rather than suppress them, and a context-injection failure where models lock onto unsafe external outputs despite safe internal states. We release the full dataset of multi-turn dialogues and CoT traces to support follow-up trace-diagnostic research.